KI-Scribe Halluzinations-Checkliste: 3 Punkte, die Sie jedes Mal prüfen müssen

Sie zeichnen eine KI-generierte Notiz ab. Sie sieht korrekt aus. Die Formatierung ist sauber, die Abschnitte sind vollständig, die Sprache ist professionell. Zwei Wochen später greift ein Kollege bei einem Folgetermin auf diese Notiz zurück — und entdeckt, dass sie einen klinischen Untersuchungsbefund dokumentiert, der nie stattgefunden hat.

Das ist kein theoretisches Risiko. Eine Studie aus 2025 in npj Digital Medicine, die 12.999 von Klinikern annotierte Sätze aus 450 KI-generierten klinischen Notizen analysierte, ergab eine Halluzinationsrate von 1,47 % — und 44 % dieser halluzinierten Sätze wurden als „schwerwiegend" eingestuft, das heißt, sie könnten Diagnose oder Behandlung direkt beeinflussen, wenn sie unkorrigiert bleiben. Dieselbe Studie beobachtete eine Auslassungsrate von 3,45 %, wobei Auslassungen zwar deutlich häufiger, einzeln aber weniger gefährlich waren.

Eins Komma vier sieben Prozent klingt gering. Multiplizieren Sie das mit jeder Notiz, jedem Tag, jedem Therapeuten in Ihrer Praxis, und die Zahlen sind nicht mehr klein. Ein niedergelassener Therapeut mit 25 Patienten pro Tag generiert etwa 250 dokumentierbare Sätze. Statistisch gesehen enthalten drei bis vier dieser Sätze jeden Tag halluzinierte Inhalte.

Das Problem ist nicht, dass KI-Scribes unzuverlässig sind — sie sparen echte Zeit und reduzieren die Erschöpfung. Das Problem ist, dass die meisten Praxen keinen systematischen Prozess haben, um die Fehler zu erkennen, die diese Werkzeuge einführen. Dieser Leitfaden stellt einen solchen vor.

Was „Halluzination" in der Klinischen Dokumentation Tatsächlich Bedeutet

In der KI-Forschung bezeichnet „Halluzination" generierten Inhalt, der plausibel erscheint, aber keine Grundlage im Quellmaterial hat. In der klinischen Dokumentation übersetzt sich das in spezifische Fehlermodi, die sich von herkömmlichen Transkriptionsfehlern unterscheiden.

Die Vier Fehlerkategorien

Forschungsergebnisse aus mehreren Studien konvergieren auf vier unterscheidbare Kategorien von KI-Scribe-Fehlern:

1. Fabrikationen Die KI erfindet Inhalte, die nie besprochen oder beobachtet wurden. Dies ist die gefährlichste Kategorie. Dokumentierte Beispiele umfassen:

Untersuchungsbefunde, die nie erhoben wurden (die KI „ergänzt" erwartete Befunde basierend auf dem Konsultationsgrund)
Medikamente, die der Patient nie erwähnt hat — in einem dokumentierten Fall ersetzte ein KI-Scribe „Aveli für Cellulite" durch „Qwo für Cellulite", ein nicht mehr auf dem Markt befindliches Produkt, weil Qwo in seinen Trainingsdaten häufiger vorkam
Diagnosen, die aus dem Kontext abgeleitet statt vom Therapeuten ausgesprochen wurden
Labor- oder Bildgebungsergebnisse, die nicht besprochen wurden

2. Auslassungen Wesentliche Informationen, die während der Konsultation besprochen wurden, fehlen in der Notiz. Obwohl einzeln weniger gefährlich als Fabrikationen, untergraben Auslassungen den klinischen Nutzen der Notiz über die Zeit:

Vom Patienten berichtete Symptome, die im Gespräch erwähnt, aber in der Anamnese fehlen
Besprochene Medikationsänderungen, die nicht im Behandlungsplan erscheinen
Für die Behandlung relevante Informationen aus der Sozialanamnese, die die KI als unwesentlich eingestuft hat
Kontraindikationen oder Allergien, die mündlich erwähnt, aber nicht dokumentiert wurden

3. Fehlinterpretationen Die KI erfasst etwas Gesagtes, ordnet ihm aber die falsche klinische Bedeutung zu:

Ein Patient berichtet über das Absetzen eines Medikaments, und die Notiz dokumentiert eine Neuverordnung
Eine als unwahrscheinlich besprochene Differenzialdiagnose wird als bestätigter Befund dokumentiert
Dosierungsänderungen werden mit falschen Werten erfasst
Zeitliche Zusammenhänge werden umgekehrt („bessernd" wird zu „verschlechternd" oder umgekehrt)

4. Fehlzuordnungen Das System verwechselt, wer was gesagt hat. Dies ist relevant, weil klinisches Reasoning davon abhängt, ob eine Aussage ein Patientenbericht, eine Therapeutenbeurteilung oder ein referenzierter Befund ist:

Patientenbedenken als Therapeutenbeurteilungen dokumentiert
Vom Therapeuten initiierte Beratung als vom Patienten initiierte Beschwerden erfasst
Familienanamnese der persönlichen Vorgeschichte des Patienten zugeordnet
Informationen Dritter (von einem überweisenden Kollegen oder Familienmitglied) der falschen Quelle zugeschrieben

Wo Sich Halluzinationen Häufen

Nicht alle Abschnitte einer klinischen Notiz tragen das gleiche Risiko. Die Forschung identifiziert konsistent bestimmte Notizabschnitte als anfälliger für KI-Halluzinationen:

Notizabschnitt	Halluzinationsrisiko	Warum
Behandlungsplan	Am höchsten (21 % der schwerwiegenden Halluzinationen)	Erfordert klinisches Reasoning, das die KI nur approximieren kann
Klinische Untersuchung	Sehr hoch	Die KI neigt dazu, erwartete Befunde basierend auf dem Konsultationsgrund zu „ergänzen"
Beurteilung	Hoch (10,5 % der schwerwiegenden Halluzinationen)	Informationssynthese erfordert Urteilsvermögen, nicht nur Transkription
Symptome / Anamnese	Mäßig (5,2 %)	Die KI kann Symptome aus dem Kontext ableiten statt aus dem tatsächlich Gesagten
Medikation	Mäßig bis hoch (18,5 % der Sicherheitsrückmeldungen)	Medikamentennamen, Dosierungen und Anweisungen werden häufig verfälscht
Subjektiv / Vorgeschichte	Niedriger, aber vorhanden	Generell näher am gesprochenen Inhalt

Das Verständnis dieser Verteilung ist die Grundlage eines effizienten Qualitätssicherungsprozesses. Sie müssen nicht jeden Satz mit gleicher Sorgfalt prüfen — Sie müssen wissen, wo Sie am genauesten hinschauen sollten.

Die 3-Punkte-Checkliste: Was Sie Jedes Mal Prüfen Sollten

Bevor Sie eine KI-generierte Notiz unterzeichnen, gehen Sie diese drei Prüfschritte durch. Sie sind nach klinischer Schwere geordnet und darauf ausgelegt, die wichtigsten Fehlerkategorien zu erkennen.

Prüfung 1: Habe Ich Das Tatsächlich Getan, Gesagt oder Verordnet?

Ziel: Fabrikationen in den Abschnitten Klinische Untersuchung, Beurteilung und Behandlungsplan.

Lesen Sie den Abschnitt Klinische Untersuchung und stellen Sie eine Frage: Habe ich jeden dieser Befunde tatsächlich erhoben und dokumentiert? KI-Scribes neigen besonders dazu, „vorlagenhafte" Untersuchungsbefunde zu generieren, die zum Konsultationsgrund passen, aber nie tatsächlich erhoben wurden. Kommt der Patient wegen Knieschmerzen, kann die KI eine vollständige muskuloskelettale Untersuchung generieren, obwohl Sie nur das betroffene Gelenk palpiert haben.

Prüfen Sie dann den Behandlungsplan. Jede Verordnung, Überweisung, Verschreibung und Folgeanweisung muss dem entsprechen, was Sie tatsächlich besprochen haben. Achten Sie besonders auf:

Medikamente, die Sie nicht verordnet haben — die KI kann aus einer Diskussion über Medikamentenoptionen eine Verordnung ableiten
Diagnosen, die Sie nicht bestätigt haben — als Möglichkeiten diskutierte Differenzialdiagnosen können als bestätigte Diagnosen erscheinen
Nachsorgetermine, die Sie nicht festgelegt haben — die KI kann „Standard"-Nachsorgeintervalle basierend auf der Diagnose einfügen

Warnsignal: Jeder Befund, jede Verordnung oder Diagnose, an deren Besprechung oder Durchführung Sie sich nicht konkret erinnern.

Prüfung 2: Ist Etwas Klinisch Verkehrt Herum?

Ziel: Fehlinterpretationen, insbesondere bei Medikation, Symptomen und dem zeitlichen Verlauf.

Diese Prüfung erkennt Fehler, bei denen die KI das richtige Thema erfasst, aber die Richtung vertauscht hat. Achten Sie auf:

Richtung der Medikationsänderung: Wurde ein Medikament begonnen, abgesetzt, erhöht oder reduziert? Prüfen Sie, ob jede Änderung dem Besprochenen entspricht. Die gefährlichste Fehlinterpretation ist, ein Absetzen als Fortführung zu dokumentieren (oder umgekehrt).
Symptomverlauf: Gibt die Notiz korrekt wieder, ob sich Symptome bessern, stabil sind oder sich verschlechtern? Die KI kann diese vertauschen, besonders wenn das Gespräch sowohl den Verlauf als auch den aktuellen Zustand umfasst.
Negationen: „Patient verneint Brustschmerzen" vs. „Patient berichtet über Brustschmerzen" — eine einzige fehlende Negation kehrt das klinische Bild um. Negationsfehler machen etwa 30 % der halluzinierten Sätze aus.
Lateralität und Anatomie: Links vs. rechts, oben vs. unten, proximal vs. distal. Diese Fehler sind leicht zu machen und beim Überfliegen schwer zu erkennen.

Warnsignal: Jede Medikationsänderung, Symptombeschreibung oder jeder Befund, der sich „richtungsmäßig anders" anfühlt als das, was Sie in Erinnerung haben.

Prüfung 3: Fehlt Etwas Wichtiges?

Ziel: Auslassungen in allen Abschnitten.

Dies ist die schwierigste Prüfung, weil Sie nach dem suchen, was nicht da ist. Konzentrieren Sie sich auf:

Den Konsultationsgrund und alle Nebenanliegen des Patienten — sind alle in der Notiz erfasst?
Medikationsänderungen — wurden alle besprochenen Anpassungen dokumentiert, einschließlich der Begründung?
Vom Patienten berichtete Allergien, Kontraindikationen oder Nebenwirkungen, die während der Sitzung angesprochen wurden
Therapeutische Begleitung und gemeinsame Entscheidungsfindung — wenn Sie Risiken, Alternativen besprochen oder eine mündliche Einwilligung für eine Maßnahme eingeholt haben, ist das dokumentiert?
Soziale Determinanten, die der Patient erwähnt hat und die den Behandlungsplan beeinflussen (instabile Wohnsituation, Mobilitätseinschränkungen, Betreuungspflichten)

Warnsignal: Ein Gesprächsthema, an das Sie sich deutlich erinnern, das aber nirgendwo in der Notiz auftaucht.

In der Praxis Umsetzen

Diese Checkliste sollte 60–90 Sekunden pro Notiz dauern, sobald sie zur Gewohnheit geworden ist. Zum Vergleich: Studien zeigen, dass Therapeuten 5–10 Minuten für die Prüfung und Bearbeitung KI-generierter Notizen aufwenden, gegenüber 30–45 Minuten für das Schreiben von Grund auf. Eine strukturierte Überprüfung eliminiert die Zeitersparnis nicht — sie sichert sie ab.

Ein praktischer Ansatz:

Lesen Sie zuerst den Behandlungsplan (höchstes Halluzinationsrisiko)
Prüfen Sie die Klinische Untersuchung auf Befunde, die Sie nicht erhoben haben
Kontrollieren Sie jeden Medikamenteneintrag auf korrekten Namen, Dosierung, Änderungsrichtung und Anweisungen
Überprüfen Sie Symptomverlauf und Negationen in der Anamnese
Spielen Sie die Sitzung gedanklich durch und suchen Sie nach fehlenden Themen

Risikokategorien: Situationen, die Besondere Aufmerksamkeit Erfordern

Über die Checkliste pro Notiz hinaus bergen bestimmte Konsultationstypen und klinische Szenarien ein erhöhtes Halluzinationsrisiko. Wenn Sie eines dieser Muster erkennen, gehen Sie langsamer vor.

1. Sitzungen mit Mehreren Medikationsänderungen

Je mehr Medikamente besprochen werden, desto mehr Möglichkeiten hat die KI, Namen, Dosierungen oder Änderungsrichtungen zu verwechseln. Polypharmazie-Besprechungen und Medikationsabgleiche verdienen eine Zeile-für-Zeile-Überprüfung jedes genannten Medikaments.

Warum es riskant ist: KI-Modelle können einen Medikamentennamen durch einen anderen ersetzen, wenn das besprochene Medikament in den Trainingsdaten selten vorkommt. Die erwähnte Aveli/Qwo-Vertauschung ist ein Beispiel, aber dasselbe Muster gilt für Generika-/Markennamen-Verwechslungen, ähnlich klingende Medikamente und Off-Label-Anwendungen, die dem Modell selten begegnet sind.

2. Komplexe Differenzialdiagnosen

Wenn Sie mehrere mögliche Diagnosen besprechen und dann eine eingrenzen, kann die KI eine der ausgeschlossenen Erkrankungen als bestätigt dokumentieren. Dies ist besonders gefährlich bei Erkrankungen mit deutlich unterschiedlichen Behandlungspfaden.

Warum es riskant ist: Die Abschnitte Beurteilung und Behandlungsplan erfordern klinisches Reasoning, das Sprachmodelle durch Mustererkennung approximieren. Das Modell kann nicht mit derselben Zuverlässigkeit unterscheiden zwischen „Wir haben X als Möglichkeit besprochen" und „Die Diagnose ist X", wie es faktische Aussagen transkribiert.

3. Sitzungen mit Bedeutsamem Non-Verbalem Kontext

Wenn eine klinische Schlüsselentscheidung auf etwas beruht, das Sie beobachtet haben (Gangauffälligkeit, Affekt, Hautbild, Wundbeschaffenheit), statt auf etwas Gesprochenem, hat die KI kein Quellmaterial. Sie kann den Befund entweder ganz auslassen oder — schlimmer — einen Befund fabrizieren, basierend auf dem, was sie bei der gegebenen Diagnose erwartet.

Warum es riskant ist: KI-Scribes sind grundsätzlich auf Audioeingabe beschränkt. Die Forschung bestätigt, dass sie non-verbale Kommunikation, visuelle Anzeichen von Belastung oder beobachtete, aber nicht verbalisierte klinische Befunde nicht erfassen können.

4. Sitzungen zu Sensiblen Themen

Gespräche über psychische Gesundheit, Substanzkonsum, häusliche Gewalt oder sexuelle Gesundheit erfordern präzise Sprache. Die KI kann verallgemeinern, beschönigen oder Aussagen so fehlzuordnen, dass das, was der Patient offenbart hat, verzerrt dargestellt wird.

Warum es riskant ist: Diese Themen beinhalten häufig nuancierte Gesprächsdynamiken — Pausen, indirekte Offenbarungen, vorsichtige Formulierungen des Therapeuten —, die für die KI schwer korrekt zu interpretieren sind.

5. Sitzungen mit Mehreren Gesprächsteilnehmern

Wenn ein Angehöriger, Dolmetscher, Begleitperson oder weiterer Behandler anwesend ist, kann die KI bei der Sprecheridentifikation Schwierigkeiten haben. Klinische Informationen, die der falschen Person zugeordnet werden, können die Akte erheblich verfälschen.

Warum es riskant ist: Die Sprecherdiarisierung (Identifikation, wer spricht) ist eine bekannte Einschränkung heutiger Audio-KI. Die Fehlzuordnungsraten steigen mit jedem zusätzlichen Sprecher.

6. Konsultationen, bei Denen der Patient Frühere Angaben Korrigiert

Wenn ein Patient Informationen liefert, die von seinem bestehenden Dossier abweichen — Korrektur einer früheren Diagnose, Aktualisierung der Medikationsliste oder Klärung einer Allergie — kann die KI auf die „erwartete" Information zurückfallen statt auf die Korrektur.

Warum es riskant ist: Sprachmodelle sind auf statistischen Mustern trainiert. Wenn die Patienteninformation gängigem medizinischem Wissen oder typischen Mustern widerspricht, kann das Modell die tatsächlichen Worte des Patienten subtil durch das ersetzen, was es für wahrscheinlicher hält.

Die Audit-Kadenz: Ein Stichproben- und Prüfprotokoll

Die Checkliste pro Notiz erkennt Fehler in Echtzeit. Aber Sie brauchen auch einen systematischen Prozess, um zu überwachen, ob die KI abdriftet — ob sie neue Fehlermuster einführt, in bestimmten Kontexten schlechter abschneidet oder blinde Flecken entwickelt, die Sie nicht bemerkt haben, weil sie über die Notizen hinweg konsistent sind.

Warum Stichproben Wichtig Sind

Sie können nicht jede Notiz eingehend auditieren. Was Sie tun können, ist periodisch eine zufällige Stichprobe zu ziehen und sie mit frischem Blick zu prüfen — oder besser noch: von einem Kollegen prüfen zu lassen. Dies erkennt Fehler, die unsichtbar werden, wenn Sie Ihre eigenen Notizen in Echtzeit prüfen — insbesondere Auslassungen und subtile Fehlinterpretationen, die Ihre Erwartungen bestätigen.

Empfohlene Audit-Kadenz

Es gibt keinen universellen Standard für die Häufigkeit klinischer Dokumentationsaudits. Das CDI Toolkit der AHIMA erkennt dies an und empfiehlt jeder Organisation, ihre eigene Kadenz basierend auf Volumen und Risiko festzulegen. Basierend auf bestehender Fachliteratur zur Qualitätssicherung im Gesundheitswesen und den spezifischen Risiken KI-generierter Dokumentation bieten wir hier ein praxisnahes Framework:

Für Niedergelassene Therapeuten und Kleine Praxen (1–3 Therapeuten)

Aktivität	Häufigkeit	Umfang
Vollständige Notiz-Gegenprüfung mit Audio (falls verfügbar)	Wöchentlich	2–3 Notizen pro Therapeut
Kollegiale Gegenprüfung	Monatlich	5 Notizen pro Therapeut, geprüft von einem Kollegen
Fehlerprotokoll-Überprüfung	Monatlich	Durchsicht aller Korrekturen des Monats
Genauigkeitsprüfung des Anbieters	Vierteljährlich	10 Notizen mit Rohtranskripten oder Audio vergleichen

Für Mittelgroße Praxen (4–15 Therapeuten)

Aktivität	Häufigkeit	Umfang
Vollständige Notiz-Gegenprüfung mit Audio	Wöchentlich	1–2 Notizen pro Therapeut
Strukturierte Peer-Review	Zweiwöchentlich	3 Notizen pro Therapeut, anhand einer standardisierten Rubrik
Fehlertrend-Analyse	Monatlich	Zusammenfassung der Korrekturen aller Therapeuten zur Trenderkennung
Onboarding-Audit für neue Therapeuten	Erste 30 Tage	100%-Prüfung aller KI-generierten Notizen neuer Anwender
Genauigkeitsprüfung des Anbieters	Vierteljährlich	20 Notizen mit Quellaudio oder Transkripten vergleichen

Für Größere Einrichtungen und Versorgungsnetzwerke (15+ Therapeuten)

Aktivität	Häufigkeit	Umfang
Randomisierte Stichprobe	Wöchentlich	3 % aller Notizen, zufällig ausgewählt
Fachbereichsspezifische Prüfung	Monatlich	Mindestens 5 Notizen pro Fachbereich, geprüft von einem Fachkollegen
Fehler-Dashboard	Monatlich	Automatisierte Erfassung von Korrekturquoten und -typen
Gezielte Audits bei Hochrisiko-Konsultationen	Fortlaufend	Alle als Hochrisiko markierten Konsultationen (siehe Risikokategorien oben)
Externes Audit	Jährlich	Unabhängige Überprüfung einer repräsentativen Stichprobe

Worauf Sie Beim Audit Achten Sollten

Bei der Prüfung einer Notiz außerhalb des unmittelbaren klinischen Kontexts verwenden Sie diese strukturierte Bewertung:

Genauigkeitsdimensionen:

□ Alle dokumentierten Befunde entsprechen dem, was besprochen/durchgeführt wurde
□ Keine fabrizierten Untersuchungsbefunde, Diagnosen oder Verordnungen
□ Medikamentennamen, Dosierungen und Anweisungen sind korrekt
□ Negationen sind korrekt (verneint vs. berichtet)
□ Zeitliche Zusammenhänge sind korrekt (bessernd, verschlechternd, stabil)

Vollständigkeitsdimensionen:

□ Alle Konsultationsgründe und Nebenanliegen sind dokumentiert
□ Medikationsänderungen und deren Begründung sind erfasst
□ Therapeutische Begleitung und gemeinsame Entscheidungsfindung sind abgebildet
□ Vom Patienten geäußerte Präferenzen und Bedenken erscheinen in der Notiz

Zuordnungsdimensionen:

□ Patientenaussagen sind dem Patienten zugeordnet
□ Therapeutenbeurteilungen sind klar als solche erkennbar
□ Informationen Dritter sind korrekt zugeordnet

Das Fehlerprotokoll: Ihr Wertvollstes QA-Instrument

Jede Korrektur, die Sie an einer KI-generierten Notiz vornehmen, ist ein Datenpunkt. Erfassen Sie diese. Eine einfache gemeinsame Tabelle reicht aus:

Datum	Therapeut	Fehlertyp	Notizabschnitt	Beschreibung	Schweregrad
01.02.2026	Dr. M.	Fabrikation	Klinische Untersuchung	KI ergänzte „Lungenauskultation unauffällig" — nicht durchgeführt	Schwerwiegend
01.02.2026	Dr. M.	Auslassung	Behandlungsplan	Besprochene Überweisung zur Physiotherapie nicht dokumentiert	Mäßig
01.02.2026	Dr. L.	Fehlinterpretation	Medikation	Dosierung mit 20 mg erfasst, besprochen waren 10 mg	Schwerwiegend

Im Laufe der Zeit zeigt dieses Protokoll:

Welche Fehlertypen am häufigsten in Ihrer Praxis auftreten
Welche Notizabschnitte am wenigsten zuverlässig sind
Welche Konsultationstypen die meisten Korrekturen erfordern
Ob die Fehlerquoten nach Software-Updates steigen oder sinken

Überprüfen Sie das Protokoll monatlich. Wenn sich ein Muster abzeichnet (z. B. die KI macht konsequent Fehler bei Anweisungen zur schrittweisen Medikamentenreduktion), können Sie eine gezielte Prüfung in Ihren Notiz-Workflow aufnehmen und das Thema bei Ihrem Anbieter ansprechen.

Praktische Umsetzung: Diesen Prozess in Ihrer Praxis Einführen

Woche 1: Bestandsaufnahme

Wählen Sie 10 aktuelle KI-generierte Notizen pro Therapeut aus
Lassen Sie jeden Therapeuten diese mit der 3-Punkte-Checkliste erneut prüfen
Dokumentieren Sie jeden gefundenen Fehler (nutzen Sie das Tabellenformat oben)
Berechnen Sie eine Ausgangs-Fehlerquote pro Abschnitt und pro Typ

Dies gibt Ihnen eine Momentaufnahme des aktuellen Stands Ihres KI-Scribes — bevor Sie eine systematische Qualitätssicherung implementiert haben.

Woche 2–4: Die Checkliste pro Notiz Verankern

Verteilen Sie die 3-Punkte-Checkliste an alle Therapeuten
Ermutigen Sie jeden Therapeuten, die zusätzlichen 60–90 Sekunden vor der Unterzeichnung jeder Notiz zu investieren
Führen Sie das Fehlerprotokoll fort
Halten Sie am Ende von Woche 4 ein kurzes Teammeeting (15 Minuten), um Muster zu besprechen

Ab Monat 2: Die Audit-Kadenz Etablieren

Wählen Sie die passende Audit-Stufe aus den obigen Tabellen basierend auf Ihrer Praxisgröße
Weisen Sie Audit-Verantwortlichkeiten zu (wer prüft, wann, wie Ergebnisse dokumentiert werden)
Planen Sie die erste kollegiale Gegenprüfung
Setzen Sie eine monatliche Erinnerung zur Überprüfung des Fehlerprotokolls

Fortlaufend: Anpassen und Verfeinern

Nach Anbieter-Updates: Erhöhen Sie die Audit-Häufigkeit für zwei Wochen. Software-Updates können Fehlermuster verändern.
Beim Onboarding neuer Therapeuten: 100%-Prüfung der Notizen in den ersten 30 Tagen. Therapeuten, die neu mit KI-Scribes arbeiten, zeigen andere Fehlermuster als erfahrene Anwender — nicht weil sie mehr Fehler machen, sondern weil ihre Prüfgewohnheiten noch nicht kalibriert sind.
Bei einem Anstieg der Fehlerquote: Ermitteln Sie die Ursache, bevor Sie zur normalen Kadenz zurückkehren. Häufige Auslöser sind Software-Updates, veränderte Konsultationstypen (saisonale Muster) oder neue klinische Arbeitsabläufe.

Was Sie von Ihrem KI-Scribe-Anbieter Erwarten Sollten

Ein verantwortungsvoller Anbieter sollte transparent über die Einschränkungen seines Systems sein. Stellen Sie bei der Bewertung oder Neubewertung Ihres KI-Scribes folgende Fragen:

Wie hoch ist Ihre gemessene Halluzinationsrate? Wenn der Anbieter keine Zahl nennen kann oder Null behauptet, ist das ein Warnsignal. Veröffentlichte Forschung zeigt Raten von 1–3 % bei aktuellen Systemen.
Bieten Sie Konfidenz-Markierungen oder Unsicherheitsindikatoren? Manche Systeme kennzeichnen Abschnitte, bei denen die KI eine niedrige Konfidenz hatte. Das ist wertvoll für eine gezielte Überprüfung.
Wie testen Sie über diverse Populationen hinweg? Spracherkennungssysteme zeigen systematische Leistungsunterschiede — signifikant höhere Fehlerraten bei bestimmten Akzenten und Dialekten. Fragen Sie, ob Genauigkeitsdaten nach demografischen Patientenmerkmalen aufgeschlüsselt sind.
Was passiert bei einem Modell-Update? Software-Updates können Fehlermuster verändern. Fragen Sie, ob der Anbieter Änderungsprotokolle bereitstellt, die Genauigkeit neu validiert und Praxen über Änderungen informiert, die die Dokumentationsqualität beeinflussen könnten.
Kann ich parallel zur generierten Notiz auf das Rohtranskript zugreifen? Das ist die nützlichste QA-Funktion. Wenn Sie das Quellmaterial der KI mit ihrem Output vergleichen können, erkennen Sie Halluzinationen, die keine Checkliste aufdecken würde.
Unterstützt Ihr System Audit-Trails? Sie müssen nachvollziehen können, was die KI generiert hat, was der Therapeut geändert hat und was letztlich unterzeichnet wurde. Das ist sowohl für die Qualitätssicherung als auch für die Haftung relevant.

Die Haftungsdimension

Hier geht es nicht nur um Qualität — es geht um rechtliche Exposition. Der Therapeut, der eine KI-generierte Notiz unterzeichnet, ist rechtlich für deren Inhalt verantwortlich. Die aktuellen regulatorischen Rahmenbedingungen in der EU, den USA und der Schweiz legen die Prüfpflicht klar beim unterzeichnenden Therapeuten fest.

Forschungsergebnisse von Berufshaftpflichtversicherern sind in diesem Punkt eindeutig: Dokumentationsfehler schwächen die Verteidigung eines Therapeuten im Haftungsfall. Gutachter und Richter können eine fehlerhafte Dokumentation als Beleg für mangelnde Sorgfalt werten. Fälle mit klinisch einwandfreier Behandlung haben zu nachteiligen Vergleichen geführt, weil die Dokumentation unzuverlässig war.

Ein systematischer QA-Prozess ist nicht nur klinische Best Practice — er ist Risikomanagement. Ein Fehlerprotokoll, eine dokumentierte Audit-Kadenz und ein konsistenter Prüf-Workflow belegen die gebotene Sorgfalt in einer Weise, die „Ich schaue immer kurz drüber, bevor ich unterschreibe" nicht leistet.

Für Praxen in der EU fügen die sich weiterentwickelnden Anforderungen des EU AI Act eine weitere Ebene hinzu. Auch wenn Ihr KI-Scribe nicht als Hochrisiko eingestuft wird, wird von Ihnen erwartet, seine Einschränkungen zu verstehen und eine angemessene Aufsicht zu gewährleisten. Für Schweizer Praxen stellt das DSG eigene Datenschutzpflichten für den Umgang mit KI-verarbeiteten Patientendaten auf.

Das Gesamtbild

KI-Scribes werden nicht verschwinden. Sie reduzieren die Dokumentationszeit messbar — Studien zeigen eine mediane Reduktion von 2,6 Minuten pro Konsultation und eine 29,3%ige Abnahme der administrativen Arbeit außerhalb der Sitzungszeiten. Für Therapeuten, die unter der administrativen Last ertrinken, ist das erheblich.

Aber der Übergang von „Ich habe diese Notiz geschrieben" zu „Ich habe diese Notiz freigegeben" erfordert einen entsprechenden Wandel in der Art, wie Praxen über Qualitätssicherung denken. Der Prüfschritt ist kein optionaler Mehraufwand — er ist der Preis der Zeitersparnis.

Der in diesem Leitfaden beschriebene Workflow ist bewusst schlank gehalten. Drei Prüfungen pro Notiz. Ein strukturiertes Audit in einer zu Ihrer Praxisgröße passenden Kadenz. Ein Fehlerprotokoll, das einzelne Korrekturen in systemische Erkenntnisse verwandelt. Nichts davon erfordert neue Software, neue Mitarbeiter oder ein Gremium. Es erfordert eine Entscheidung: KI-generierte Dokumentation verdient dieselbe Sorgfalt, die Sie der Notiz eines Kolleg:in in der Ausbildung entgegenbringen würden — denn funktional ist sie genau das.

Sie suchen einen KI-Scribe, der auf die Prüfung durch den Therapeuten ausgelegt ist? Testen Sie Dya 14 Tage kostenlos — entwickelt für europäische klinische Workflows mit integrierten Qualitätssicherungen.

Weiterführende Lektüre

KI-Scribe vs. Diktat vs. Manuelle Dokumentation: Ein Praktischer Vergleich — Wie sich KI-Scribes im Vergleich zu anderen Dokumentationsmethoden bei Genauigkeit, Zeitaufwand und Workflow-Integration schlagen.
EU AI Act 2026: Gilt Ihr KI-Scribe als „Hochrisiko"? — Ein verständlicher Entscheidungsbaum zu Ihren regulatorischen Pflichten.
KI-Medizintranskription in der Schweiz: Die DSG-Compliance-Checkliste — Datenschutzanforderungen für KI-verarbeitete klinische Dokumentation nach Schweizer Recht.
Zwei-Schichten-Notizen: Klinischen Bericht und Patientenzusammenfassung Trennen — Eine Dokumentationsstruktur, die sowohl KI-generierte als auch vom Therapeuten verfasste Notizen verbessert.
Vorlagen-Governance für Mehrbehandler-Praxen — Wie Sie Dokumentationspraktiken in Ihrem Team standardisieren.
Ambient Clinical Intelligence 2026: Einwilligung und Patientenvertrauen — Praktische Einwilligungsskripte und Strategien für Praxen, die ambiante KI nutzen.

Referenzen

Nayak, A. et al. "A framework to assess clinical safety and hallucination rates of LLMs for medical text summarisation." npj Digital Medicine (2025). https://www.nature.com/articles/s41746-025-01670-7
Nayak, A. et al. "Beyond human ears: navigating the uncharted risks of AI scribes in clinical practice." npj Digital Medicine (2025). https://www.nature.com/articles/s41746-025-01895-6
"Assessing the quality of AI-generated clinical notes: validated evaluation of a large language model ambient scribe." Frontiers in Artificial Intelligence (2025). https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2025.1691499/full
"Patient Safety Risks from AI Scribes: Signals from End-User Feedback." arXiv (2025). https://arxiv.org/html/2512.04118
"Evaluating the Usability, Technical Performance, and Accuracy of Artificial Intelligence Scribes for Primary Care." JMIR Human Factors (2025). https://pmc.ncbi.nlm.nih.gov/articles/PMC12309782/
"AI Scribes Pose Liability Risks." MICA Insurance (2025). https://www.mica-insurance.com/blog/posts/ai-scribes-pose-liability-risks/
"Artificial Intelligence Scribe and Large Language Model Technology in Healthcare Documentation: Advantages, Limitations, and Recommendations." PMC (2025). https://pmc.ncbi.nlm.nih.gov/articles/PMC11737491/
"Using AI Medical Scribes: Risk Management Considerations." TMLT (2025). https://www.tmlt.org/resource/using-ai-medical-scribes-risk-management-considerations
AHIMA Clinical Documentation Improvement Toolkit. https://www.ahima.org/
"Artificial Intelligence Scribes Shape Health Care Delivery." AAFP (2025). https://www.aafp.org/pubs/afp/issues/2025/0400/graham-center-artificial-intelligence-scribes.html