MaAB - Medizin am Abend Berlin ...interdisziplinär...ganzheitliche Betreuung

Pro Bono - CHEFÄRZTLICHE - OA- FACHÄRZTLICHE SPRECHSTUNDEN / VISITEN / UNTERSUCHER/KGP STUDIEN KOLLEG / Frühe Fallfindung - : Advence Care Planning // Patientenzentriert denken, organisieren und handeln Patienten + Mediziner + Medizinische Einsatz-Team (MET): Behandlungsvertrag mit Veränderbarkeit: "Fit for the Aged": Ändern–Verändern– Medizinisches Wissenziel 2026: Wissen teilen, Gesundheit stärken MaAB/DGK/NAKO/BAGPH/ASB/VDK/Ver.di/ www.KORRESPONDENTEN.com + www.DIPLO.NEWS

ChatGPT-Modelle und die Gesundheit

Laut einer Studie der TU Berlin neigen ChatGPT-Modelle zu übervorsichtigen Empfehlungen. Für die gezielte Steuerung von Patient*innen im Gesundheitssystem reicht das aktuell nicht aus

Künstliche Intelligenz (KI) wird zunehmend auch für gesundheitliche Fragen genutzt. Viele Menschen verwenden Tools wie ChatGPT, um Beschwerden einzuordnen und abzuschätzen, ob sie sofort medizinische Hilfe brauchen, ärztlichen Rat einholen sollten oder zunächst abwarten können. Mit speziell für den Gesundheitsbereich positionierten Versionen wie etwa ChatGPT Health in den USA entsteht dabei leicht der Eindruck besonderer fachlicher Eignung. Wie verlässlich Empfehlungen von ChatGPT tatsächlich sind, ist bislang jedoch nur begrenzt untersucht.

In einer neuen Studie aus dem Fachgebiet Arbeitswissenschaft der Technischen Universität Berlin haben Forschende deshalb analysiert, wie genau ChatGPT in verschiedenen Modellversionen gesundheitliche Beschwerden einordnet, wie sich die Leistung im Zeitverlauf verändert hat und ob identische Eingaben konsistente Empfehlungen erzeugen. Das Ergebnis: Für die digitale Ersteinschätzung und eigenständige Patientensteuerung ist ChatGPT derzeit nur eingeschränkt geeignet.

22 Modellversionen, 45 reale Fälle, 9.900 Bewertungen
„Der Hauptunterschied zu unseren früheren Studien ist die längsschnittliche Analyse. Bisher wurden nur ein oder zwei Modelle untersucht. Nun haben wir alle Modelle, die über die Zeit verfügbar waren, getestet und analysiert, wie sie sich tatsächlich verändert haben“, sagt Studienleiter Dr. Marvin Kopka. „Das war uns auch deshalb wichtig, weil es immer wieder Meldungen gibt, nach denen neue Modelle in ärztlichen Zulassungsprüfungen oder Wissenstests nahezu perfekte Ergebnisse erreichen. Daraus wird dann schnell geschlossen, dass sie auch für Patient*innen verlässliche medizinische Empfehlungen geben. Genau das stimmt aber laut unserer Studie nicht.“

Für die Studie „Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice“, erschienen im Journal „Communications Medicine“, testete das Forschungsteam 22 ChatGPT-Modellversionen anhand echter Fälle von 45 Patient*innen. Darunter waren Krankheitsbilder wie „eine kurzfristige Überlastung von Sehnen/Bändern am Vortag“ oder auch „einfache Verdauungsprobleme/Durchfall seit einem Tag ohne weitere Beschwerden“. Jeder Fall wurde pro Modell zehnmal eingegeben. Insgesamt entstanden so 9.900 Einzelbewertungen. Die Modelle mussten jeweils entscheiden, ob ein Fall als Notfall, als Fall für ärztliche Abklärung oder als Fall für Selbstversorgung einzustufen ist.

Die Genauigkeit steigt kaum noch
Die Auswertung zeigt: Die Genauigkeit stieg mit den ersten Modellversionen zunächst deutlich an. Seit der dritten Modellgeneration (gpt-4) gab es jedoch nur noch geringfügige Verbesserungen. Das beste getestete Modell erreichte eine Treffergenauigkeit von 74 Prozent. Zwar empfahlen neuere Modelle häufiger überhaupt Selbstversorgung, insgesamt blieb die Leistung in diesem Bereich aber begrenzt.

Besondere Schwächen bei harmlosen Beschwerden
Besonders gut waren die getesteten Modelle darin, behandlungsbedürftige Fälle zu erkennen. Die meisten Fehler traten dagegen bei Fällen auf, in denen Selbstversorgung ausreichend gewesen wäre: 70 Prozent aller Fehler entfielen auf diese Gruppe. Kein einziger der 13 Selbstversorgungsfälle wurde von allen Modellen in allen Durchläufen korrekt gelöst.

Lediglich einzelne Modelle, etwa o4, o3 oder GPT 5, empfahlen überhaupt jemals Selbstversorgung. Bei allen anderen getesteten Modellen wurde durchgängig zur ärztlichen Abklärung geraten. Das ist problematisch, weil ein erheblicher Teil der Beschwerden tatsächlich nicht gefährlich ist, von allein wieder weggeht oder selbst behandelt werden kann.
Die Studie zeigt damit ein strukturelles Muster: Fast alle Modelle neigen dazu, Beschwerden vorsichtshalber als behandlungsbedürftiger einzustufen, als es medizinisch erforderlich wäre.

Die Forschenden bezeichnen dieses Muster als konservatives Triagierungsverhalten. „Uns haben die Ergebnisse in dieser Klarheit selbst überrascht“, so Dr. Marvin Kopka. „Denn sie zeigen explizit, dass die für Patient*innen relevanten Fragen durch neuere Modelle nicht automatisch besser beantwortet werden. Bessere Test- oder Prüfungsergebnisse bedeuten eben nicht zwangsläufig einen höheren praktischen Nutzen in der Versorgung.“

Entscheidend ist der praktische Nutzen
„Entscheidend ist aus unserer Sicht nicht nur, ob ein Modell einzelne Fälle richtig einordnet, sondern welchen praktischen Nutzen die Empfehlungen im Alltag tatsächlich haben. Wenn ein System bei sehr vielen Beschwerden vorsorglich zur medizinischen Abklärung rät, wirkt das zunächst sicher für Nutzer*innen – es bietet aber faktisch keine echte Entscheidungshilfe mehr, wenn die Empfehlung fast immer gleich ausfällt“, so Dr. Marvin Kopka.

Gleiche Eingabe, nicht immer gleiche Empfehlung
Hinzu kommt ein weiteres Problem: Die Modelle antworten nicht durchgängig konsistent. Bei identischen Eingaben kam es je nach Modell zu teils deutlichen Schwankungen. Neuere Modelle hatten zwar seltener Fälle, die nie korrekt gelöst wurden, zugleich aber häufiger Fälle mit inkonsistenten Empfehlungen über mehrere Durchläufe hinweg. Besonders deutlich zeigte sich das bei GPT 5: Bei 42 Prozent aller Fälle waren die Empfehlungen bei mehrfacher Eingabe desselben Falls mal richtig und mal falsch – trotz exakt gleicher Eingabe.

Im Experiment zeigte sich zwar, dass sich die Genauigkeit verbessern lässt, wenn dieselbe Frage mehrfach gestellt und anschließend die niedrigste Dringlichkeitsstufe aus mehreren Antworten ausgewählt wird. Auf diese Weise stieg die Gesamtgenauigkeit im Mittel um vier Prozentpunkte, die Genauigkeit bei Selbstversorgungsfällen sogar um 14 Prozentpunkte. Die Forschenden betonen aber ausdrücklich, dass dies keine Empfehlung für Endnutzer*innen ist, weil dabei im schlimmsten Fall Notfälle übersehen werden könnten.

Relevanz für die Debatte um Primärversorgung
Die Ergebnisse sind auch gesundheitspolitisch relevant, so Kopka. In Deutschland wird intensiv über ein Primärversorgungssystem und über Formen digitaler Patientensteuerung diskutiert. Die TU-Studie legt nahe, dass allgemeine Sprachmodelle wie ChatGPT dafür derzeit kein geeignetes allein einsetzbares Instrument sind. Wenn ein System in der Praxis überwiegend zur ärztlichen Abklärung rät, entsteht kaum ein echter Steuerungseffekt – unnötige ärztliche Inanspruchnahme kann dann sogar zunehmen.

Potenzial eher in qualitätsgesicherten Anwendungen
„Das Potenzial großer Sprachmodelle sehen wir deshalb derzeit weniger in einer Nutzung im Chatfenster der Hersteller als in einer sinnvollen Integration in qualitätsgesicherten Anwendungen, also in Symptom-Checker-Apps. Dort könnten sie helfen, Informationen verständlich aufzubereiten, Empfehlungen zu erläutern und Menschen besser durch bestehende Versorgungswege zu lotsen – vorausgesetzt, die medizinische Qualitätssicherung erfolgt im Hintergrund“, so Marvin Kopka.

Einschränkungen der Studie
Die Forschenden weisen zugleich daraufhin, dass der Fokus dieser Studie auf Bevölkerungsrepräsentativität lag. Da echte Notfälle im Alltag selten sind und dementsprechend auch seltener bei der Nutzung von ChatGPT auftreten, enthielt auch der Datensatz nur wenige Notfälle und untersuchte hauptsächlich Entscheidungen für oder gegen das Aufsuchen von ärztlicher Hilfe. Die Genauigkeit bei der Erkennung von echten Notfällen sollte in weiteren Studien untersucht werden.

Studie:
Kopka, M., He, L. & Feufel, M.A., Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice. Commun Medicine (2026). https://www.nature.com/articles/s43856-026-01466-0

MaAB - Medizin am Abend Berlin VOR ORT

Dr. Marvin Kopka
Fachgebiet Arbeitswissenschaft
Fakultät V – Verkehrs- und Maschinensysteme
Technische Universität Berlin
E-Mail: marvin.kopka@tu-berlin.de

Abonnieren Kommentare ( Atom )

Qualitätszirkel Nieren- und Dialysen

Kardiologie Potsdam

DGK

Cardiovascular Prevention Center @Charité

Herzinsuffizienz

PfAD.uia

Universitätzmedizin Rostock

Universitätsmedizin Greiswald

Alexianer St. Josephs Potsdam

Dialyse-Pflege-Standard

salt

PICS Ambulanz

Dr.Vetter

Woran erkranken wir in Deutschland?

BG Klinken - Post-COVID-Programm

Herz Check

EMA

Progrid

vdd

Verband Deutscher Druckkammerzentren e.V.

Dr. Heart

Herzhose

Lauflabor

IKDT

Wanderkonzepte

Wandern in Potsdam, Berlin und im Land Brandenburg

Online Strafanzeigen

medpoint - Fortbildungskalendar

Fortbildungskalendar

Was hab ich?

Healthtalk

BKV Info

BKG

KHS BB

Kardiologie

Urologie Berlin

bbgk

VEmaH

ProBeweis

SCD Deutschland

Sudden Cardiac Death - Deutschland

jkb

zurück ins leben

CRO

Gewebenetzwerk

discharge

Anamnese- und Untersuchungsbogen

Anamnese- und Untersuchungsbogen

Diagnostische Pfade

Diagnostische Pfade

CIRS Bayern

Gender Medizin

idw