KI übertrifft Notaufnahme-Ärzte: Was die Harvard-Studie im Fachjournal Science bedeutet

Ein Sprachmodell schlägt Notaufnahme-Ärzte – in echten Fällen

Ein KI-Sprachmodell hat in einer kontrollierten Studie Notaufnahme-Ärzte bei klinischen Entscheidungen übertroffen. Die Ergebnisse wurden am 30. April 2026 im Fachjournal Science veröffentlicht – einer der renommiertesten wissenschaftlichen Zeitschriften der Welt. Das ist eine neue Qualität: Frühere Studien testeten KI meist in Wissenstests oder auf standardisierten Prüfungsfragen. Diese Studie konfrontierte ein KI-Modell mit echten Patientenfällen aus einer echten Notaufnahme – und ließ das Ergebnis von Ärzten beurteilen, die nicht wussten, wer die Empfehlung ausgesprochen hatte.

Wie die Studie aufgebaut war

Forschende der Harvard Medical School und des Beth Israel Deaconess Medical Centers in Boston testeten OpenAIs Reasoning-Modell o1-preview an 76 realen Notaufnahmefällen. Die Fälle stammten aus einer Klinik in Boston und wurden dem Modell in drei Phasen vorgelegt: beim ersten Triage-Kontakt nach Ankunft des Patienten, beim ersten direkten Arztkontakt und bei der Entscheidung über die stationäre Aufnahme oder Entlassung.

Zwei erfahrene Fachärzte bewerteten anschließend die klinischen Empfehlungen – ohne zu wissen, ob sie von der KI oder von menschlichen Kolleginnen und Kollegen stammten. Das Ergebnis: Das KI-Modell schnitt in allen drei Phasen mindestens so gut ab wie die beteiligten Fachärzte. In zentralen Bereichen übertraf es die menschliche Leistung deutlich.

Die Studie ergänzte außerdem eine Analyse auf Basis publizierter Fallkonferenzen – sogenannter "Case Reports" aus der Fachliteratur. Auch hier zeigte das KI-Modell starke Leistungen bei der Diagnosestellung und der Planung des weiteren Vorgehens.

Wo KI besonders stark war: Therapieentscheidungen

Besonders auffällig war die Leistung beim sogenannten "Management-Reasoning" – also bei konkreten Therapieempfehlungen. Dazu zählten Entscheidungen über Antibiotikagaben, Intensivpflege oder das Führen von Gesprächen über Behandlungsziele am Lebensende. In diesem Bereich übertraf o1 sowohl frühere KI-Generationen als auch die menschlichen Ärzte – selbst wenn diese unterstützend auf Google-Suche, UpToDate oder andere Fachdatenbanken zurückgriffen.

Das ist bemerkenswert, weil Therapieentscheidungen in der Notaufnahme zu den komplexesten und folgenreichsten in der gesamten Medizin gehören. Sie erfordern nicht nur Faktenwissen, sondern das Abwägen von Risiken, die Berücksichtigung von Patientenpräferenzen und das Handeln unter Unsicherheit – alles unter Zeitdruck.

Was das für den medizinischen Alltag bedeutet – und was nicht

Die Forschenden betonen ausdrücklich: Das Ergebnis bedeutet nicht, dass KI Ärztinnen und Ärzte ersetzen soll oder wird. "Wir sehen diese Technologie als Werkzeug, nicht als Ersatz", erklärt Studienautorin Arya Rao. In der Praxis spielen Faktoren eine entscheidende Rolle, die kein Sprachmodell übernehmen kann: die körperliche Untersuchung, der Aufbau von Vertrauen, das Gespräch mit Angehörigen, das Erkennen nonverbaler Signale oder das spontane Erfassen komplexer sozialer Dynamiken.

Was die Studie zeigt: KI kann bei der Entscheidungsunterstützung eine echte Rolle spielen – besonders in Situationen, in denen Ärzte unter Zeitdruck stehen, auf eine unklare Datenlage reagieren müssen oder eine zweite Meinung fehlt. Gerade in überlasteten deutschen Notaufnahmen, wo laut Deutschem Ärzteblatt jährlich rund 25 Millionen Patientenfälle behandelt werden und Personalengpässe zunehmen, könnte ein KI-gestütztes Assistenzsystem wertvolle Unterstützung leisten.

Was wir bereits wissen – und wo KI noch scheitert

Im April 2026 hatte eine andere Studie, veröffentlicht im Fachjournal JAMA Network Open durch Forschende des Mass General Brigham-Netzwerks, gezeigt, dass KI-Modelle bei Erstdiagnosen in mehr als 80 Prozent der Fälle versagen – wenn sie nur wenige Informationen haben. Das scheint ein Widerspruch zur Harvard-Studie zu sein, ist es aber nicht: KI ist dann stark, wenn ausreichend strukturierte Daten vorliegen. Am Beginn eines ungeklärten Falls, wenn noch kaum Befunde, Vorgeschichte oder Laborwerte bekannt sind, tut sie sich deutlich schwerer.

Das Harvard-Team bestätigt diese Grenze: "Sobald alle Daten vorliegen, können diese Modelle die Diagnose gut benennen – der offene Beginn eines Falls ist die größte Schwäche." In der Notaufnahme, wo die untersuchten 76 Fälle zu einem Zeitpunkt mit mehr vorliegenden Informationen bewertet wurden, konnte das Modell seine Stärken ausspielen.

In Deutschland hat die Universität Marburg 2026 zudem gezeigt, dass KI-Modelle in einem standardisierten medizinischen Wissenstest 90 Prozent der Fragen korrekt beantworteten – menschliche Ärzte nur 49 Prozent. Die Harvard-Studie geht einen entscheidenden Schritt weiter: Sie testet nicht nur Faktenwissen, sondern Handlungsentscheidungen in echten klinischen Szenarien mit realen Konsequenzen.

Regulierung und nächste Schritte

Für Patientinnen und Patienten in deutschen Notaufnahmen oder Arztpraxen ändert sich kurzfristig nichts. KI-Systeme wie o1 sind nicht als klinische Medizinprodukte zugelassen. Der Weg dahin führt über aufwendige Zulassungsverfahren: Im europäischen Raum greift die EU-Verordnung für Medizinprodukte (MDR), für Hochrisiko-KI zusätzlich der EU AI Act, der seit 2026 schrittweise in Kraft tritt. Beide setzen hohe Anforderungen an Validierung, Transparenz und klinische Prüfung.

Mittelfristig dürfte die Studie die Debatte darüber beschleunigen, welche Rolle KI-Assistenzsysteme in der medizinischen Versorgung spielen sollen. Digitale Gesundheitsanwendungen, die auf KI setzen, können von der zunehmenden Evidenzlage profitieren – sofern sie die regulatorischen Anforderungen erfüllen. Die Harvard-Studie ist ein starkes Signal: Nicht nur KI-Experten, sondern auch klinische Forscher nehmen das Thema KI in der Medizin zunehmend ernst.

Häufige Fragen zur KI in der Notaufnahme

Kann KI wirklich Ärzteentscheidungen ersetzen?
Nein – zumindest nicht in absehbarer Zeit. KI kann bei der Entscheidungsunterstützung helfen, aber körperliche Untersuchung, Empathie und das Arzt-Patienten-Gespräch kann kein Modell übernehmen. Die Harvard-Autoren sehen KI ausdrücklich als Assistenzwerkzeug.

Welche KI wurde in der Studie getestet?
OpenAIs o1-preview – ein sogenanntes "Reasoning-Modell", das im Gegensatz zu einfachen Chatbots komplexe Schlussfolgerungsketten durchführt, bevor es eine Antwort ausgibt.

Ist die Studie auf Deutschland übertragbar?
Eingeschränkt: Die 76 Fälle stammen aus einem US-amerikanischen Krankenhaus. Deutsche Notaufnahmen haben andere Strukturen, Abrechnungssysteme und Patientenprofile. Weitere Studien in europäischen Settings wären nötig, bevor klinische Ableitungen möglich sind.