Einleitung
Mit zunehmender Nutzung Künstlicher Intelligenz (KI) in der medizinischen Diagnostik wächst der Bedarf an aussagekräftigen Benchmarks zur Bewertung ihrer Leistungsfähigkeit. Der SymptomCheck Bench ist ein neu entwickelter Benchmark, der eine realistische und praxisnahe Beurteilung von KI-gestützten Symptom-Checkern ermöglicht. Dieser Artikel stellt das Konzept von SymptomCheck Bench vor, beschreibt die Testmethoden und gibt Einblicke in die Leistungsbewertung des MedAsk-Systems im Vergleich zu traditionellen Symptom-Checker-Anwendungen.
Hauptfrage: Was ist SymptomCheck Bench?
SymptomCheck Bench ist ein OSCE-inspirierter (Objective Structured Clinical Examination) Benchmark, der speziell zur Evaluierung von KI-Modellen entwickelt wurde, die in textbasierter Interaktion mit simulierten Patienten mögliche Diagnosen stellen. Ziel ist es, die Genauigkeit von Large Language Models (LLMs) zu testen, die wie symptomprüfende Anwendungen Symptome erfassen und diagnostische Vermutungen aufstellen. SymptomCheck Bench soll dabei als ein praxisnahes Werkzeug dienen, das die diagnostische Präzision und die Interaktionsqualität dieser KI-Systeme überprüft.
Wie funktioniert SymptomCheck Bench?
Der SymptomCheck Bench umfasst einen strukturierten Vier-Schritte-Prozess, der eine umfassende Diagnosebewertung ermöglicht:
- Initialisierung: Eine klinische Fallbeschreibung (Vignette) wird ausgewählt und an einen simulierten Patienten übermittelt.
- Dialog: Das Symptom-Checker-System führt eine textbasierte Konversation mit dem simulierten Patienten und stellt gezielte Fragen zu Symptomen und Krankheitsgeschichte.
- Diagnose: Nach maximal zwölf Fragen generiert das System eine Liste der fünf wahrscheinlichsten Differenzialdiagnosen (DDx).
- Bewertung: Ein Bewertungsagent vergleicht die ermittelten Diagnosen mit der tatsächlichen Diagnose aus der Fallbeschreibung, um die Genauigkeit des Symptom-Checker-Systems zu bewerten.
Der Symptom Checker Agent
Der Symptom Checker Agent ist das KI-Modell, das die Symptome analysiert und eine Diagnose stellt. Der Agent interagiert mit dem Patienten, indem er gezielt Fragen stellt, die für die Symptome und medizinische Vorgeschichte relevant sind, und nutzt daraufhin die gesammelten Informationen, um Differenzialdiagnosen zu formulieren. SymptomCheck Bench unterstützt verschiedene Sprachmodelle, darunter GPT, Mistral, Claude und DeepSeek, und ist so konfiguriert, dass die maximale Anzahl an Fragen auf 12 begrenzt ist. Dies soll die diagnostische Genauigkeit optimieren, da längere Gespräche die Treffsicherheit beeinträchtigen können.
Der Patient Agent
Der Patient Agent agiert als simulierte Patient*in und basiert auf klinischen Vignetten, die realitätsnahe medizinische Szenarien beschreiben. Mithilfe von GPT-4o generiert der Patient Agent Antworten auf Fragen des Symptom Checkers und gibt dabei nur Informationen weiter, die in der Vignette enthalten sind. Dies verhindert, dass die Diagnose unbeabsichtigt in das Gespräch einfließt.
Der Bewertungsagent
Am Ende der Konversation erstellt der Symptom Checker eine Liste der fünf wahrscheinlichsten Diagnosen. Der Bewertungsagent vergleicht diese Liste mit der tatsächlichen Diagnose und verwendet definierte Kriterien wie „Exakte Übereinstimmung“ und „Extrem relevante Übereinstimmung“, um die Treffsicherheit zu bewerten. Für eine unabhängige Evaluierung wurde zudem die Übereinstimmung des Bewertungsagents mit Einschätzungen medizinischer Expert*innen untersucht. Diese zeigten eine sehr hohe Übereinstimmung, was die Zuverlässigkeit der automatisierten Bewertung unterstreicht.
MedAsk im Vergleich zu traditionellen Symptom-Checkern
Für die erste Evaluierung wurde MedAsk mit GPT-4o getestet und mit traditionellen Symptom-Checkern wie Avey, Ada, WebMD, K Health und Buoy verglichen. Die Leistungsmessungen bei 400 Vignetten ergaben:
- Top 1 (korrekte Diagnose als erste Wahl): 58,3 %
- Top 3 (korrekte Diagnose unter den ersten drei): 78,7 %
- Top 5 (korrekte Diagnose unter den ersten fünf): 82,0 %
MedAsk zeigte eine bemerkenswerte Leistung und schnitt in allen Kategorien besser ab als die meisten anderen Symptom-Checker, außer Avey. Diese Ergebnisse sind umso beeindruckender, da MedAsk erst sechs Monate in Entwicklung ist, während andere Symptom-Checker auf jahrelange Optimierung zurückblicken.
Einschränkungen und zukünftige Verbesserungen
Trotz der positiven Ergebnisse sind einige Einschränkungen des SymptomCheck Bench bemerkenswert:
- Bias durch KI-Simulationen: Der Einsatz eines KI-basierten Patient Agent kann zu Verzerrungen führen, die durch systematische Vergleiche mit menschlichen Simulationen weiter untersucht werden sollten.
- Beschränkte Diagnosen: Der aktuelle Benchmark deckt mit 400 klinischen Vignetten eine limitierte Bandbreite an Erkrankungen ab. Für eine umfassendere Testung sollten neue Vignetten hinzukommen, die nicht in den Trainingsdaten der KI-Modelle enthalten sind.
- Qualitative Aspekte nicht berücksichtigt: Der Benchmark fokussiert auf die diagnostische Genauigkeit, berücksichtigt jedoch nicht die qualitative Interaktion, wie zum Beispiel Einfühlungsvermögen oder Effizienz in der Informationssammlung.
- Modellvielfalt: Tests wurden hauptsächlich mit GPT-4o durchgeführt. Weitere Tests mit anderen Modellen könnten wertvolle Erkenntnisse zur diagnostischen Genauigkeit unterschiedlicher KI-Ansätze liefern.
Ausblick
SymptomCheck Bench stellt einen bedeutenden Schritt zur Entwicklung eines objektiven Benchmarks für KI-gestützte Diagnosen dar. Die kontinuierliche Verbesserung und Erweiterung des Benchmarks könnte eine noch differenziertere Bewertung ermöglichen und so die Entwicklung medizinischer KI-Lösungen vorantreiben. Insbesondere durch die Einbindung der medizinischen Community und die Verfügbarkeit auf GitHub fördert SymptomCheck Bench den offenen Austausch und die Weiterentwicklung moderner, diagnostischer KI.