SymptomCheck Bench: Neuer innovativer Benchmark für medizinische KI

Starten Sie Ihre KI-Reise mit Deutschlands modernster KI-Beratung

Science

SymptomCheck Bench: Neuer innovativer Benchmark für medizinische KI

Von Oliver Welling

6 November, 2024
08:35

Einleitung

Mit zunehmender Nutzung Künstlicher Intelligenz (KI) in der medizinischen Diagnostik wächst der Bedarf an aussagekräftigen Benchmarks zur Bewertung ihrer Leistungsfähigkeit. Der SymptomCheck Bench ist ein neu entwickelter Benchmark, der eine realistische und praxisnahe Beurteilung von KI-gestützten Symptom-Checkern ermöglicht. Dieser Artikel stellt das Konzept von SymptomCheck Bench vor, beschreibt die Testmethoden und gibt Einblicke in die Leistungsbewertung des MedAsk-Systems im Vergleich zu traditionellen Symptom-Checker-Anwendungen.

Hauptfrage: Was ist SymptomCheck Bench?

SymptomCheck Bench ist ein OSCE-inspirierter (Objective Structured Clinical Examination) Benchmark, der speziell zur Evaluierung von KI-Modellen entwickelt wurde, die in textbasierter Interaktion mit simulierten Patienten mögliche Diagnosen stellen. Ziel ist es, die Genauigkeit von Large Language Models (LLMs) zu testen, die wie symptomprüfende Anwendungen Symptome erfassen und diagnostische Vermutungen aufstellen. SymptomCheck Bench soll dabei als ein praxisnahes Werkzeug dienen, das die diagnostische Präzision und die Interaktionsqualität dieser KI-Systeme überprüft.

Wie funktioniert SymptomCheck Bench?

Der SymptomCheck Bench umfasst einen strukturierten Vier-Schritte-Prozess, der eine umfassende Diagnosebewertung ermöglicht:

Initialisierung: Eine klinische Fallbeschreibung (Vignette) wird ausgewählt und an einen simulierten Patienten übermittelt.
Dialog: Das Symptom-Checker-System führt eine textbasierte Konversation mit dem simulierten Patienten und stellt gezielte Fragen zu Symptomen und Krankheitsgeschichte.
Diagnose: Nach maximal zwölf Fragen generiert das System eine Liste der fünf wahrscheinlichsten Differenzialdiagnosen (DDx).
Bewertung: Ein Bewertungsagent vergleicht die ermittelten Diagnosen mit der tatsächlichen Diagnose aus der Fallbeschreibung, um die Genauigkeit des Symptom-Checker-Systems zu bewerten.

Der Symptom Checker Agent

Der Symptom Checker Agent ist das KI-Modell, das die Symptome analysiert und eine Diagnose stellt. Der Agent interagiert mit dem Patienten, indem er gezielt Fragen stellt, die für die Symptome und medizinische Vorgeschichte relevant sind, und nutzt daraufhin die gesammelten Informationen, um Differenzialdiagnosen zu formulieren. SymptomCheck Bench unterstützt verschiedene Sprachmodelle, darunter GPT, Mistral, Claude und DeepSeek, und ist so konfiguriert, dass die maximale Anzahl an Fragen auf 12 begrenzt ist. Dies soll die diagnostische Genauigkeit optimieren, da längere Gespräche die Treffsicherheit beeinträchtigen können.

Der Patient Agent

Der Patient Agent agiert als simulierte Patient*in und basiert auf klinischen Vignetten, die realitätsnahe medizinische Szenarien beschreiben. Mithilfe von GPT-4o generiert der Patient Agent Antworten auf Fragen des Symptom Checkers und gibt dabei nur Informationen weiter, die in der Vignette enthalten sind. Dies verhindert, dass die Diagnose unbeabsichtigt in das Gespräch einfließt.

Der Bewertungsagent

Am Ende der Konversation erstellt der Symptom Checker eine Liste der fünf wahrscheinlichsten Diagnosen. Der Bewertungsagent vergleicht diese Liste mit der tatsächlichen Diagnose und verwendet definierte Kriterien wie „Exakte Übereinstimmung“ und „Extrem relevante Übereinstimmung“, um die Treffsicherheit zu bewerten. Für eine unabhängige Evaluierung wurde zudem die Übereinstimmung des Bewertungsagents mit Einschätzungen medizinischer Expert*innen untersucht. Diese zeigten eine sehr hohe Übereinstimmung, was die Zuverlässigkeit der automatisierten Bewertung unterstreicht.

MedAsk im Vergleich zu traditionellen Symptom-Checkern

Für die erste Evaluierung wurde MedAsk mit GPT-4o getestet und mit traditionellen Symptom-Checkern wie Avey, Ada, WebMD, K Health und Buoy verglichen. Die Leistungsmessungen bei 400 Vignetten ergaben:

Top 1 (korrekte Diagnose als erste Wahl): 58,3 %
Top 3 (korrekte Diagnose unter den ersten drei): 78,7 %
Top 5 (korrekte Diagnose unter den ersten fünf): 82,0 %

MedAsk zeigte eine bemerkenswerte Leistung und schnitt in allen Kategorien besser ab als die meisten anderen Symptom-Checker, außer Avey. Diese Ergebnisse sind umso beeindruckender, da MedAsk erst sechs Monate in Entwicklung ist, während andere Symptom-Checker auf jahrelange Optimierung zurückblicken.

Einschränkungen und zukünftige Verbesserungen

Trotz der positiven Ergebnisse sind einige Einschränkungen des SymptomCheck Bench bemerkenswert:

Bias durch KI-Simulationen: Der Einsatz eines KI-basierten Patient Agent kann zu Verzerrungen führen, die durch systematische Vergleiche mit menschlichen Simulationen weiter untersucht werden sollten.
Beschränkte Diagnosen: Der aktuelle Benchmark deckt mit 400 klinischen Vignetten eine limitierte Bandbreite an Erkrankungen ab. Für eine umfassendere Testung sollten neue Vignetten hinzukommen, die nicht in den Trainingsdaten der KI-Modelle enthalten sind.
Qualitative Aspekte nicht berücksichtigt: Der Benchmark fokussiert auf die diagnostische Genauigkeit, berücksichtigt jedoch nicht die qualitative Interaktion, wie zum Beispiel Einfühlungsvermögen oder Effizienz in der Informationssammlung.
Modellvielfalt: Tests wurden hauptsächlich mit GPT-4o durchgeführt. Weitere Tests mit anderen Modellen könnten wertvolle Erkenntnisse zur diagnostischen Genauigkeit unterschiedlicher KI-Ansätze liefern.

Ausblick

SymptomCheck Bench stellt einen bedeutenden Schritt zur Entwicklung eines objektiven Benchmarks für KI-gestützte Diagnosen dar. Die kontinuierliche Verbesserung und Erweiterung des Benchmarks könnte eine noch differenziertere Bewertung ermöglichen und so die Entwicklung medizinischer KI-Lösungen vorantreiben. Insbesondere durch die Einbindung der medizinischen Community und die Verfügbarkeit auf GitHub fördert SymptomCheck Bench den offenen Austausch und die Weiterentwicklung moderner, diagnostischer KI.

Quelle:

Introducing SymptomCheck Bench

Uncategorized

Google One AI Ultra: Alle Details zum neuen Profi-KI-Abo für 275 € in Deutschland

Google startet mit AI Ultra ein neues Profi-KI-Abo für 275€. Wir analysieren alle Features von Flow bis Deep Think, vergleichen.

VON Oliver Welling
15 Juli, 2025

Business Language Models

Kimi K2 schlägt ChatGPT und handelt statt nur zu reden

Mit Kimi K2 stellt Moonshot AI eine agentische Open-Source KI vor, die handelt statt nur zu reden. Entdecke die Benchmarks,.

VON Oliver Welling
14 Juli, 2025

VON Oliver Welling
15 Juli, 2025

Business Language Models

Kimi K2 schlägt ChatGPT und handelt statt nur zu reden

VON Oliver Welling
14 Juli, 2025

Business

OpenAI Browser: Der KI-Angriff auf Google Chrome startet jetzt

VON Oliver Welling
10 Juli, 2025

German

FOLLOW US:

Cybersecurity

Ethik und Gesellschaft

Events

Interviews und Meinungen

Investment

Politik und Regulierung

Unternehmen

Audio

Grafik

Hardware

Language Models

Video

Cybersecurity

Ethik und Gesellschaft

Events

Interviews und Meinungen

Investment

Politik und Regulierung

Unternehmen

Audio

Grafik

Hardware

Language Models

Video

SymptomCheck Bench: Neuer innovativer Benchmark für medizinische KI

Einleitung

Hauptfrage: Was ist SymptomCheck Bench?

Wie funktioniert SymptomCheck Bench?

Der Symptom Checker Agent

Der Patient Agent

Der Bewertungsagent

MedAsk im Vergleich zu traditionellen Symptom-Checkern

Einschränkungen und zukünftige Verbesserungen

Ausblick

Quelle:

Ähnliche Beiträge

Folge uns

Beliebte Artikel

About Author

Maßgeschneiderte KI-Lösungen für Ihr Unternehmen

TechNow ist Ihr strategischer Partner für den erfolgreichen Einsatz von Künstlicher Intelligenz.

HOT CATEGORIES

Cybersecurity

Events

Interviews und Meinungen

Investment

Unternehmen

TAGS

Tags

Kategorien

Weitere Seiten