Neunzig Prozent korrekte Antworten gegen neunundvierzig Prozent – das ist das zentrale Ergebnis einer Studie, die Forschende der Philipps-Universität Marburg und des Universitätsklinikums Gießen und Marburg (UKGM) im April 2026 veröffentlicht haben. Das Team um Dr. Philipp Russ hat 13 der bekanntesten KI-Sprachmodelle mit 123 Medizinerinnen und Medizinern verglichen – in einem standardisierten Wissenstest zur akuten Nierenschädigung. Das Ergebnis ist eindeutig: Die KI liegt weit vorn. Doch was das für Patienten, Ärzte und den deutschen Gesundheitsmarkt bedeutet, ist komplizierter als es auf den ersten Blick scheint.
Die Studie im Detail
Für ihre Untersuchung wählten die Marburger Forscher ein klinisch relevantes Thema: die akute Nierenschädigung (englisch: Acute Kidney Injury, AKI). Die Erkrankung tritt häufig als Komplikation bei Krankenhausaufenthalten auf, ist potenziell lebensbedrohlich und erfordert schnelle, leitliniengerechte Einschätzungen. Genau diese Einschätzungen wurden in einem standardisierten Fragenformat getestet.
Die Vergleichsgruppe bestand aus 123 Freiwilligen – darunter Medizinstudierende sowie Ärztinnen und Ärzte aus der Inneren Medizin, die an einem Fachkongress teilnahmen. Die KI-Modelle beantworteten im Mittel 90 Prozent der Fragen korrekt, die menschlichen Teilnehmenden kamen auf 49 Prozent. Mehrere Modelle schnitten noch besser ab und beantworteten alle Fragen richtig – und das in einem Bruchteil der Zeit. Laut Uni Marburg zeige das Ergebnis, dass große Sprachmodelle leitlinienkonformes medizinisches Fachwissen in standardisierten Fragesituationen inzwischen sehr zuverlässig wiedergeben können [1].
Was das Ergebnis bedeutet – und was nicht
Die Studienautoren sind vorsichtig mit weitreichenden Schlussfolgerungen, und das ist berechtigt. Ein Wissenstest prüft gebundenes Faktenwissen aus Leitlinien – keine differenzialdiagnostische Einschätzung am Krankenbett, kein Gespräch mit dem Patienten, keine körperliche Untersuchung. Genau diese Fähigkeiten machen ärztliches Handeln aus und lassen sich durch einen Fragebogen nicht abbilden.
KI-Sprachmodelle haben bekannte Schwächen: Sie können Fehlinformationen selbstbewusst präsentieren, Quellen erfinden und sind stark vom Kontext abhängig, den der Nutzer liefert. Die Forschenden betonen daher ausdrücklich: Ein gutes Abschneiden im Wissenstest bedeute nicht, dass diese Systeme eigenständig klinische Entscheidungen treffen können oder sollten. Die sinnvollste Nutzung liegt in der Unterstützung – beim schnellen Nachschlagen von Leitlinien, beim Formulieren von Arztbriefen oder bei der Vorbereitung auf Patientengespräche.
Ähnliche Befunde liegen aus der Radiologie vor. Forschende berichten, dass KI-Systeme bei der Krebserkennung in Bildgebungsverfahren eine Sensitivität von bis zu 98 Prozent erreichen – deutlich mehr als menschliche Diagnostiker in Einzelleistung [2]. Auch hier zeigt sich: Die besten Ergebnisse entstehen, wenn Arzt und Technologie zusammenarbeiten, nicht wenn eine Seite die andere ersetzt. Der Begriff Augmentation – die Verstärkung menschlicher Fähigkeiten durch Maschinen – beschreibt diesen Ansatz treffender als Ersatz.
KI in der deutschen Medizin – Stand April 2026
Dass künstliche Intelligenz kein Zukunftsthema mehr ist, belegt eine aktuelle Erhebung des Branchenverbandes Bitkom: In rund zwölf Prozent der Arztpraxen und medizinischen Versorgungszentren in Deutschland wird KI bereits zur Unterstützung der Diagnosestellung eingesetzt [3]. Der Anteil steigt – und mit ihm die regulatorischen Anforderungen. Der EU AI Act, der ab August 2026 für Hochrisiko-KI-Systeme in Kliniken greift, verpflichtet Hersteller zu umfassender Dokumentation, Transparenz und Nachweispflichten.
Auf der DMEA 2026, dem größten Digital-Health-Kongress Europas, der noch bis zum 23. April in Berlin läuft, steht KI im Mittelpunkt zahlreicher Vorträge – von der Nutzung in der Pflege bis hin zu Rechtsfragen rund um KI als Medizinprodukt. Die Branche sendet ein klares Signal: Technologie kann Versorgungslücken schließen, aber nur dann, wenn sie klinisch erprobt und regulatorisch abgesichert ist.
Für Patienten bringt die Entwicklung Chancen und Fragen zugleich. In Regionen mit Ärztemangel kann KI-gestützte Diagnostik Wartezeiten verkürzen und die Fehlerquote reduzieren. Gleichzeitig entstehen neue Unsicherheiten: Wer haftet bei einem Fehler des Algorithmus? Wie transparent sind die Systeme, die im Hintergrund rechnen? Und welche Gesundheitsdaten werden dabei verarbeitet?
Für digitale Gesundheitsanwendungen, wie sie auf Bestes.com im unabhängigen Vergleich zu finden sind, hat die Debatte eine direkte Konsequenz. Seit Februar 2026 müssen Hersteller von Apps auf Rezept (DiGA) einen Teil ihrer GKV-Vergütung an messbare Therapieerfolge knüpfen. Der Trend geht klar in Richtung Evidenz statt Versprechen – eine Entwicklung, die Patienten und dem Gesundheitssystem gleichermaßen zugutekommen dürfte.
Quellen
[1] Philipps-Universität Marburg: Studie: KI-Sprachmodelle übertreffen Fachmediziner. Uni Marburg Aktuelles, April 2026. https://www.uni-marburg.de/de/aktuelles/news/2026/ki-in-der-medizin-2026
[2] Ad-hoc-news.de: KI-Systeme erkennen Krebs besser als Ärzte – Durchbruch mit 98 Prozent Genauigkeit. April 2026. https://www.ad-hoc-news.de/boerse/news/ueberblick/ki-systeme-erkennen-krebs-besser-als-aerzte-durchbruch-mit-98-prozent/69137563
[3] Bitkom e. V.: KI in fast jeder siebten Praxis und vielen Kliniken im Einsatz. Presseinformation 2026. https://www.bitkom.org/Presse/Presseinformation/KI-in-Praxis-und-Kliniken-im-Einsatz
