Warum KI-Chatbots bei Symptomen oft falsch liegen

KI‑Chatbots sind schlecht darin, Symptome zu diagnostizieren – aus einem überraschenden Grund, wie eine Studie zeigt

Millionen von Menschen wenden sich an künstliche Intelligenz (KI)‑Chatbots, um Rat zu allem zu erhalten – vom Kochen bis zu Steuererklärungen. Immer mehr fragen Chatbots auch nach ihrer Gesundheit.
Aber wie der britische Chef‑Mediziner kürzlich warnte, ist das möglicherweise nicht sinnvoll, wenn es um medizinische Entscheidungen geht. In einer aktuellen Studie haben Kollegen und ich getestet, wie gut Large Language Model (LLM)‑Chatbots der Öffentlichkeit helfen, mit häufigen Gesundheitsproblemen umzugehen. Die Ergebnisse waren auffällig.

Die Chatbots, die wir getestet haben, waren nicht bereit, als Ärzte zu fungieren. Eine häufige Reaktion auf Studien wie diese ist, dass KI schneller voranschreitet als die akademische Publikation. Bis ein Paper erscheint, könnten die getesteten Modelle bereits aktualisiert worden sein. Aber Studien, die neuere Versionen dieser Systeme zur Patienteneinstufung verwenden, deuten darauf hin, dass dieselben Probleme bestehen bleiben.

Wir gaben den Teilnehmern kurze Beschreibungen häufiger medizinischer Situationen. Sie wurden zufällig entweder einer von drei weit verbreiteten Chatbots oder der Quelle zugewiesen, die sie normalerweise zu Hause verwenden würden.

Nach der Interaktion mit dem Chatbot stellten wir zwei Fragen: Welche Erkrankung könnte die Symptome erklären? Und wo sollten sie Hilfe suchen?
Menschen, die Chatbots benutzt hatten, identifizierten die richtige Erkrankung seltener als diejenigen, die dies nicht taten. Sie waren auch nicht besser darin, den richtigen Ort für eine Versorgung zu bestimmen als die Kontrollgruppe. Mit anderen Worten: Die Interaktion mit einem Chatbot half den Menschen nicht, bessere Gesundheitsentscheidungen zu treffen.

Starke Kenntnisse, schwache Ergebnisse

Siehe auch Folgen von bakterieller Meningitis — Leben nach der Krankheit

Das bedeutet nicht, dass den Modellen medizinisches Wissen fehlt, denn LLMs können medizinische Zulassungsprüfungen mit Leichtigkeit bestehen. Wenn wir den menschlichen Einfluss entfernten und denselben Szenarien direkt den Chatbots gaben, verbesserten sich ihre Leistungen dramatisch.

Ohne menschliche Beteiligung identifizierten die Modelle in den meisten Fällen relevante Krankheiten und schlugen oft auch geeignete Versorgungsstufen vor.

Warum verschlechterten sich die Ergebnisse also, wenn Menschen die Systeme tatsächlich nutzten? Wenn wir uns die Gespräche ansahen, traten die Probleme zutage. Chatbots erwähnten häufig die relevante Diagnose irgendwo im Gespräch, doch die Teilnehmer nahmen dies nicht immer wahr oder erinnerten sich nicht daran, als sie ihre abschließende Antwort zusammenfassten.

In anderen Fällen gaben Nutzer unvollständige Informationen an oder der Chatbot interpretierte wichtige Details falsch. Das Problem war nicht einfach ein Versagen des medizinischen Wissens – es war ein Scheitern der Kommunikation zwischen Mensch und Maschine.

Die Studie zeigt, dass politische Entscheidungsträger Informationen über die reale Leistung von Technologie benötigen, bevor sie sie in kritischen Bereichen wie der medizinischen Versorgung einführen. Unsere Ergebnisse heben eine wichtige Einschränkung vieler aktueller Bewertungen von KI in der Medizin hervor. Sprachmodelle verhalten sich oft extrem gut bei strukturierten Prüfungsfragen oder simulierten „Modell‑zu‑Modell“‑Interaktionen.

Aber die reale Nutzung ist wesentlich unordentlicher. Patienten beschreiben Symptome vage oder unvollständig und können Erklärungen missverstehen. Sie stellen Fragen in unvorhersehbaren Abfolgen. Ein System, das bei Benchmarks beeindruckend abschneidet, kann sich völlig anders verhalten, sobald echte Menschen mit ihm interagieren.

Eine andere Rolle für KI

Doch die Lehre aus unserer Studie ist nicht, dass KI keinen Platz im Gesundheitswesen hat. Ganz im Gegenteil. Der Schlüssel ist zu verstehen, wobei diese Systeme derzeit gut sind und wo ihre Grenzen liegen.

Siehe auch Virusübertragung auf Menschen — Keine speziellen Mutationen nötig

Eine nützliche Art, über die heutigen Chatbots nachzudenken, ist, dass sie eher wie Sekretäre als wie Ärztinnen oder Ärzte funktionieren. Sie sind bemerkenswert effektiv beim Organisieren von Informationen, Zusammenfassen von Texten und Strukturieren komplexer Dokumente.

Solche Aufgaben werden bereits dort genutzt, wo KI innerhalb von Gesundheitssystemen nützlich ist, zum Beispiel beim Erstellen klinischer Notizen, Zusammenfassen von Patientenakten oder Generieren von Überweisungsschreiben.

Das Versprechen der KI in der Medizin bleibt real, aber ihre Rolle wird in absehbarer Zeit eher unterstützend als revolutionär sein. Chatbots sollten nicht als erster Zugang zur Gesundheitsversorgung erwartet werden. Sie sind nicht bereit, Krankheiten zu diagnostizieren oder Patienten zur richtigen Versorgungsstufe zu führen.

Warum KI-Chatbots bei Symptomen oft falsch liegen — Wissenschaft klärt auf

Hinterlassen Sie eine Antwort