KI-Studie: Patienten geben Chatbots weniger Infos als Ärzten

Forscher der Universität Würzburg haben ein grundlegendes Problem bei der KI-gestützten Medizin aufgedeckt: Wenn Menschen ihre Krankheitssymptome einem Chatbot schildern statt einem Arzt, liefern sie deutlich weniger Informationen – und gefährden damit die Diagnosequalität. Die Studie wurde im Fachjournal Nature Health veröffentlicht und belegt das Problem erstmals mit experimentellen Daten.

Das Experiment: 500 Teilnehmer, zwei Krankheitsbilder

Psychologieprofessor Wilfried Kunde und sein Kollege Moritz Reis von der Julius-Maximilians-Universität Würzburg ließen 500 Studienteilnehmer simulierte Symptomberichte für zwei häufige Krankheitsbilder verfassen: ungewöhnliche Kopfschmerzen und eine Grippeinfektion. Die Teilnehmer glaubten, ihre Berichte würden entweder von einem KI-Chatbot oder von einem menschlichen Arzt gelesen.

Der Unterschied war messbar. Beschreibungen an Ärzte enthielten im Schnitt 255,6 Zeichen – Beschreibungen an die KI nur 228,7 Zeichen. Das klingt nach einem kleinen Unterschied, hat aber in der Praxis erhebliche Konsequenzen. Wer beim Schildern von Kopfschmerzen nicht erwähnt, dass sie seit einer Woche täglich auftreten oder mit Sehstörungen verbunden sind, liefert einer KI die falsche Ausgangslage für eine Einschätzung.

Warum verschweigen Patienten der KI mehr?

Die Würzburger Forscher identifizierten als wahrscheinlichsten Mechanismus das sogenannte Uniqueness Neglect – ein bisher wenig beschriebenes Phänomen. Viele Menschen nehmen an, dass eine KI ohnehin keine individuellen Besonderheiten erfassen kann. Sie gehen davon aus, dass der Algorithmus nur standardisierte Muster abgleicht – und lassen deshalb Details weg, die einem menschlichen Arzt wichtig erscheinen würden.

Dazu kommt ein allgemeines Vertrauensdefizit. Wer glaubt, dass seine persönliche Geschichte einem Chatbot egal ist, investiert weniger in die Schilderung. Das Ergebnis ist eine selbsterfüllende Prophezeiung: Die KI erhält schlechtere Daten, liefert schlechtere Antworten, und das Misstrauen der Nutzer verstärkt sich.

Die Studie wurde in Zusammenarbeit mit der Charité Berlin und der University of Cambridge durchgeführt und in Nature Health unter dem Titel Reduced Symptom Reporting Quality During Human-Chatbot Versus Human-Physician Interactions veröffentlicht.

Was das für Gesundheits-Apps bedeutet

Die Ergebnisse haben direkte Folgen für alle digitalen Gesundheitsangebote, die auf Symptomeingaben basieren – von Symptom-Checkern über Telemedizin-Plattformen bis hin zu KI-gestützten Diagnoseassistenten. Wenn Nutzer von Anfang an weniger Information eingeben, sind auch die besten Algorithmen überfordert.

Besonders relevant ist das für DiGAs – digitale Gesundheitsanwendungen auf Rezept. Einige dieser Apps nutzen KI-Funktionen zur Verlaufsdokumentation oder Symptomerfassung. Wenn Patienten dort systematisch weniger berichten als im Arztgespräch, sind Verlaufsdaten verzerrt.

Anbieter von Gesundheits-Apps reagieren auf solche Erkenntnisse zunehmend mit verbesserter Benutzerführung: gezielte Nachfragen, Erinnerungen an wichtige Symptomaspekte oder ein Tonfall, der eher dem eines menschlichen Gegenübers ähnelt. Die Studie liefert ihnen jetzt empirische Argumente, warum dieses Interface-Design klinisch relevant ist.

Die Grenzen der Studie

Die Studie hat einen wichtigen methodischen Rahmen: Die Symptomberichte waren simuliert, nicht real. Ob sich das Verhalten in einem echten Notfall oder bei einer chronischen Erkrankung genauso verhält, lässt die Untersuchung offen. Denkbar wäre, dass bei ernstem gesundheitlichem Leidensdruck die Hemmschwelle sinkt und Betroffene auch einer KI gegenüber vollständiger berichten.

Dennoch liefert die Studie ein wichtiges Gegengewicht zu der weit verbreiteten These, KI könne den Arzt einfach ersetzen, wenn nur die Algorithmen gut genug sind. Selbst ein perfekt trainiertes Modell kann keine Diagnose stellen, wenn die Eingangsdaten lückenhaft sind.

Häufige Fragen

Können KI-Chatbots Symptome genauso gut einschätzen wie Ärzte?

Unter Laborbedingungen mit vollständigen Daten erzielen aktuelle Sprachmodelle in Studien vergleichbare oder sogar bessere Ergebnisse als Ärzte. In der Praxis hängt die Qualität aber stark davon ab, wie vollständig Patienten ihre Symptome schildern. Die Würzburg-Studie zeigt, dass genau hier ein systematisches Problem besteht.

Sollte ich meine Gesundheits-App trotzdem nutzen?

Ja – aber bewusst. Digitale Gesundheitsangebote können Orientierung geben und Arztgespräche vorbereiten. Sie ersetzen jedoch keine vollständige ärztliche Anamnese. Wer eine App zur Symptomerfassung nutzt, sollte dieselben Details angeben, die er einem Arzt schildern würde – inklusive Begleitbeschwerden, Dauer und Intensität.

Was tun App-Hersteller gegen das Problem?

Einige Anbieter setzen auf strukturierte Eingabemasken mit gezielten Nachfragen statt auf Freitexteingaben. Andere nutzen Erinnerungsprompts oder formulieren die Benutzeroberfläche bewusst empathischer. Die Würzburg-Studie liefert jetzt empirische Belege, warum solche Designentscheidungen nicht nur Komfort sind – sondern klinische Relevanz haben.

Das Experiment: 500 Teilnehmer, zwei Krankheitsbilder

Warum verschweigen Patienten der KI mehr?

Was das für Gesundheits-Apps bedeutet

Die Grenzen der Studie

Häufige Fragen

Gesundheit, die kostenlos in deiner Tasche ist.

Ein kurzer Brief, einmal im Monat.

Ein kurzer Brief,
einmal im Monat.