Checklist de Alucinaciones del AI Scribe: 3 Cosas que Verificar Cada Vez

Firmas una nota generada por IA. Parece correcta. El formato es limpio, las secciones están completas y el lenguaje es profesional. Dos semanas después, un colega consulta esa nota durante un seguimiento y descubre que documenta un hallazgo del examen físico que nunca ocurrió.

Este no es un riesgo teórico. Un estudio de 2025 publicado en npj Digital Medicine que analizó 12.999 frases anotadas por clínicos en 450 notas clínicas generadas por IA encontró una tasa de alucinación del 1,47%, y el 44% de esas frases alucinadas se clasificaron como "graves", es decir, que podrían afectar directamente al diagnóstico o tratamiento si no se corregían. El mismo estudio observó una tasa de omisión del 3,45%, con omisiones mucho más frecuentes aunque individualmente menos peligrosas.

Un uno coma cuarenta y siete por ciento suena pequeño. Multiplícalo por cada nota, cada día, cada clínico de tu consulta, y las cifras dejan de parecer pequeñas. Un profesional independiente que atiende a 25 pacientes al día genera aproximadamente 250 frases documentables. Estadísticamente, tres o cuatro de esas frases contendrán contenido alucinado cada día.

El problema no es que los AI scribes sean poco fiables — ahorran tiempo real y reducen el agotamiento. El problema es que la mayoría de las clínicas no tienen un proceso sistemático para detectar los errores que estas herramientas introducen. Esta guía proporciona uno.

Qué significa realmente "alucinación" en documentación clínica

En la investigación sobre IA, "alucinación" se refiere a contenido generado que parece plausible pero no tiene fundamento en el material de origen. En documentación clínica, esto se traduce en modos de fallo específicos que difieren de los errores de transcripción tradicionales.

Las cuatro categorías de error

La investigación de múltiples estudios converge en cuatro categorías distintas de errores del AI scribe:

1. Fabricaciones La IA inventa contenido que nunca se discutió ni se observó. Esta es la categoría más peligrosa. Ejemplos documentados incluyen:

Hallazgos del examen físico que nunca se realizaron (la IA "completa" hallazgos esperados basándose en el motivo de consulta)
Medicamentos que el paciente nunca mencionó — en un caso reportado, un AI scribe sustituyó "Aveli para celulitis" por "Qwo para celulitis", un producto que ya no estaba en el mercado, porque Qwo era más común en sus datos de entrenamiento
Diagnósticos inferidos del contexto en lugar de expresados por el clínico
Valores de laboratorio o resultados de imagen que no se discutieron

2. Omisiones Información crítica discutida durante el encuentro está ausente de la nota. Aunque individualmente menos peligrosas que las fabricaciones, las omisiones erosionan la utilidad clínica de la nota con el tiempo:

Síntomas reportados por el paciente mencionados en la conversación pero ausentes de la HPI
Cambios de medicación discutidos pero no reflejados en el plan
Detalles de historia social relevantes para el tratamiento que la IA consideró no esenciales
Contraindicaciones o alergias mencionadas verbalmente pero no documentadas

3. Malinterpretaciones La IA captura algo que se dijo pero le asigna un significado clínico incorrecto:

Un paciente reporta discontinuar un medicamento, y la nota registra una nueva prescripción
Un diagnóstico diferencial discutido como improbable queda documentado como un hallazgo confirmado
Los cambios de dosis se capturan con valores incorrectos
Las relaciones temporales se invierten ("mejorando" se convierte en "empeorando" o viceversa)

4. Atribución errónea El sistema confunde quién dijo qué. Esto importa porque el razonamiento clínico depende de si una declaración es un reporte del paciente, una evaluación del clínico o un hallazgo referido:

Preocupaciones del paciente documentadas como evaluaciones del clínico
Asesoramiento iniciado por el clínico registrado como quejas iniciadas por el paciente
Antecedentes familiares atribuidos a la propia historia del paciente
Información de terceros (de un médico remitente o familiar) atribuida a la fuente equivocada

Dónde se concentran las alucinaciones

No todas las secciones de una nota clínica tienen el mismo riesgo. La investigación identifica consistentemente ciertas secciones como más propensas a la alucinación de la IA:

Sección de la nota	Riesgo de alucinación	Por qué
Plan	Más alto (21% de alucinaciones graves)	Requiere razonamiento clínico que la IA solo puede aproximar
Examen físico	Muy alto	La IA tiende a "completar" hallazgos esperados según el motivo de consulta
Evaluación	Alto (10,5% de alucinaciones graves)	Sintetizar información requiere juicio, no solo transcripción
Síntomas / HPI	Moderado (5,2%)	La IA puede inferir síntomas del contexto en lugar de lo que se dijo
Medicamentos	Moderado–Alto (18,5% de retroalimentación de seguridad)	Nombres de fármacos, dosis e instrucciones se confunden frecuentemente
Subjetivo / Historia	Menor pero presente	Generalmente más fiel al contenido hablado

Comprender esta distribución es la base de un proceso de control de calidad eficiente. No necesitas verificar cada frase con el mismo escrutinio — necesitas saber dónde mirar con más atención.

La checklist de verificación de 3 puntos: qué comprobar cada vez

Antes de firmar cualquier nota generada por IA, repasa estos tres pasos de verificación. Están ordenados por gravedad clínica y diseñados para detectar las categorías de error más importantes.

Verificación 1: ¿Realmente hice, dije u ordené esto?

Objetivo: Fabricaciones en las secciones de Examen Físico, Evaluación y Plan.

Lee la sección del examen físico y hazte una pregunta: ¿realmente realicé y documenté cada uno de estos hallazgos? Los AI scribes son particularmente propensos a generar hallazgos "de plantilla" que coinciden con el motivo de consulta pero que nunca se evaluaron realmente. Si el paciente acudió por dolor de rodilla, la IA puede generar un examen musculoesquelético completo aunque solo se palpó la articulación afectada.

Luego revisa el Plan. Cada orden, derivación, prescripción e instrucción de seguimiento debe coincidir con lo que realmente se discutió. Presta especial atención a:

Medicamentos que no prescribiste — la IA puede inferir una prescripción a partir de una discusión sobre opciones de medicación
Diagnósticos que no confirmaste — los diagnósticos diferenciales discutidos como posibilidades pueden aparecer como evaluaciones confirmadas
Plazos de seguimiento que no estableciste — la IA puede insertar intervalos de seguimiento "estándar" basados en el diagnóstico

Señal de alerta: Cualquier hallazgo, orden o diagnóstico que no recuerdes específicamente haber discutido o realizado.

Verificación 2: ¿Hay algo clínicamente invertido?

Objetivo: Malinterpretaciones, especialmente en Medicamentos, Síntomas y la narrativa temporal.

Esta verificación detecta errores donde la IA captó el tema correcto pero se equivocó en la dirección. Busca:

Dirección del medicamento: ¿Se inició, suspendió, aumentó o disminuyó un medicamento? Verifica que cada cambio coincida con lo que se discutió. La malinterpretación más peligrosa es documentar una suspensión como una continuación (o viceversa).
Trayectoria de los síntomas: ¿Refleja la nota si los síntomas están mejorando, estables o empeorando? La IA puede invertir estos, especialmente cuando la conversación incluye tanto el estado histórico como el actual.
Negaciones: "El paciente niega dolor torácico" vs. "El paciente refiere dolor torácico" — una sola negación omitida invierte el cuadro clínico. Los errores de negación representan aproximadamente el 30% de las frases alucinadas.
Lateralidad y anatomía: Izquierda vs. derecha, superior vs. inferior, proximal vs. distal. Estos errores son fáciles de cometer y difíciles de detectar en una lectura rápida.

Señal de alerta: Cualquier cambio de medicación, descripción de síntomas o hallazgo que se sienta direccionalmente "incorrecto" respecto a lo que recuerdas.

Verificación 3: ¿Falta algo importante?

Objetivo: Omisiones en todas las secciones.

Esta es la verificación más difícil porque estás buscando lo que no está ahí. Concéntrate en:

El motivo de consulta y cualquier preocupación secundaria que el paciente planteó — ¿llegaron todas a la nota?
Cambios de medicación — ¿se capturaron todos los ajustes discutidos, incluyendo la justificación?
Alergias, contraindicaciones o reacciones adversas reportadas por el paciente discutidas durante la visita
Asesoramiento y toma de decisiones compartida — si discutiste riesgos, alternativas u obtuviste consentimiento verbal para un procedimiento, ¿está documentado?
Determinantes sociales mencionados por el paciente que afectan el plan de atención (inestabilidad de vivienda, barreras de transporte, condición de cuidador)

Señal de alerta: Un tema de conversación que recuerdas claramente y que no aparece en ninguna parte de la nota.

Ponerlo en práctica

Esta checklist debería tomar 60–90 segundos por nota una vez que se convierte en hábito. Para contexto, la investigación muestra que los clínicos dedican 5–10 minutos a revisar y editar notas generadas por IA frente a 30–45 minutos escribiendo desde cero. Añadir una verificación estructurada no elimina el ahorro de tiempo — lo protege.

Un enfoque práctico:

Lee primero la sección del Plan (mayor riesgo de alucinación)
Revisa el Examen Físico buscando cualquier hallazgo que no realizaste
Verifica cada entrada de medicamento respecto a fármaco, dosis, dirección e instrucciones correctas
Verifica la trayectoria de los síntomas y las negaciones en la HPI
Reproduce mentalmente el encuentro y busca temas faltantes

Categorías de alerta: patrones que exigen mayor escrutinio

Más allá de la checklist por nota, ciertos tipos de encuentros y escenarios clínicos conllevan un riesgo elevado de alucinación. Cuando reconozcas uno de estos patrones, reduce la velocidad.

1. Encuentros con múltiples cambios de medicación

Cuantos más medicamentos se discutan, más oportunidades tiene la IA de confundir nombres, dosis o direcciones. Las discusiones de polifarmacia y las visitas de conciliación de medicación merecen una verificación línea por línea de cada fármaco mencionado.

Por qué es arriesgado: Los modelos de IA pueden sustituir un nombre de fármaco por otro si el fármaco discutido es poco común en sus datos de entrenamiento. La sustitución de Aveli/Qwo mencionada anteriormente es un ejemplo, pero el mismo patrón se aplica a la confusión genérico/marca, fármacos con nombres similares y usos fuera de indicación que el modelo no ha encontrado frecuentemente.

2. Diagnósticos diferenciales complejos

Cuando discutes múltiples posibles diagnósticos y luego reduces a uno, la IA puede documentar una de las condiciones descartadas como confirmada. Esto es especialmente peligroso para condiciones con vías de tratamiento significativamente diferentes.

Por qué es arriesgado: Las secciones de Evaluación y Plan requieren razonamiento clínico que los LLMs aproximan mediante reconocimiento de patrones. El modelo no puede distinguir "discutimos X como posibilidad" de "el diagnóstico es X" con la misma fiabilidad con que transcribe declaraciones factuales.

3. Conversaciones con contexto no verbal significativo

Si una decisión clínica clave se basó en algo que observaste (anomalía de la marcha, afecto, aspecto de la piel, características de una herida) en lugar de algo dicho en voz alta, la IA no tiene material fuente con el que trabajar. Puede omitir completamente el hallazgo o — peor aún — fabricar un hallazgo basándose en lo que espera dado el diagnóstico.

Por qué es arriesgado: Los AI scribes están fundamentalmente limitados a la entrada de audio. La investigación confirma que no pueden captar la comunicación no verbal, los signos visuales de malestar ni los hallazgos físicos observados pero no verbalizados.

4. Encuentros que involucran temas sensibles

Las discusiones sobre salud mental, consumo de sustancias, violencia doméstica o salud sexual requieren un lenguaje preciso. La IA puede generalizar, eufemizar o atribuir erróneamente declaraciones de formas que tergiversan lo que el paciente reveló.

Por qué es arriesgado: Estos temas frecuentemente involucran dinámicas conversacionales matizadas — pausas, revelaciones indirectas, formulación cuidadosa por parte del clínico — que son difíciles de interpretar correctamente para la IA.

5. Encuentros con múltiples interlocutores

Cuando un familiar, intérprete, cuidador u otro profesional está presente, la IA puede tener dificultades con la identificación de los hablantes. La información clínica atribuida a la persona equivocada puede distorsionar significativamente el registro.

Por qué es arriesgado: La diarización de hablantes (identificar quién dijo qué) es una limitación conocida del audio de IA actual. Las tasas de atribución errónea aumentan con cada hablante adicional.

6. Visitas donde el paciente contradice registros previos

Si un paciente proporciona antecedentes que difieren de su historial existente — corrigiendo un diagnóstico previo, actualizando listas de medicación o aclarando una alergia — la IA puede recurrir a la información "esperada" en lugar de a la corrección.

Por qué es arriesgado: Los LLMs están entrenados con patrones. Cuando la información declarada por el paciente contradice el conocimiento médico común o los patrones típicos, el modelo puede anular sutilmente las palabras reales del paciente con lo que considera más probable.

La cadencia de auditoría: un protocolo de muestreo y revisión

La checklist por nota detecta errores en tiempo real. Pero también necesitas un proceso sistemático para monitorizar si la IA está desviándose — introduciendo nuevos patrones de error, funcionando peor en ciertos contextos o desarrollando puntos ciegos que no has notado porque son consistentes en todas las notas.

Por qué importa el muestreo

No puedes auditar en profundidad cada nota. Lo que sí puedes hacer es extraer periódicamente una muestra aleatoria y revisarla con ojos frescos — o mejor aún, que un colega la revise. Esto detecta los errores que se vuelven invisibles cuando revisas tus propias notas en tiempo real, particularmente omisiones y malinterpretaciones sutiles que confirman tus expectativas.

Cadencia de auditoría recomendada

No existe un estándar universal para la frecuencia de auditoría de documentación clínica. El CDI Toolkit de AHIMA reconoce esto y recomienda que cada organización defina su propia cadencia según el volumen y el riesgo. Basándose en la literatura existente de control de calidad sanitario y los riesgos específicos de la documentación generada por IA, aquí hay un marco práctico:

Para profesionales independientes y consultas pequeñas (1–3 clínicos)

Actividad	Frecuencia	Volumen
Relectura completa contra audio (si está disponible)	Semanal	2–3 notas por clínico
Revisión cruzada entre pares	Mensual	5 notas por clínico, revisadas por un colega
Revisión del registro de errores	Mensual	Revisar todas las correcciones realizadas durante el mes
Verificación de precisión del proveedor	Trimestral	Comparar 10 notas contra transcripciones o audio originales

Para consultas medianas (4–15 clínicos)

Actividad	Frecuencia	Volumen
Relectura completa contra audio	Semanal	1–2 notas por clínico
Revisión entre pares estructurada	Quincenal	3 notas por clínico, usando una rúbrica estandarizada
Análisis de patrones de error	Mensual	Agregar correcciones de todos los clínicos para identificar tendencias
Auditoría de incorporación de nuevos clínicos	Primeros 30 días	100% de revisión de notas generadas por IA para cada nuevo usuario
Verificación de precisión del proveedor	Trimestral	Comparar 20 notas contra audio o transcripciones fuente

Para clínicas y redes grandes (15+ clínicos)

Actividad	Frecuencia	Volumen
Muestreo aleatorio	Semanal	3% del total de notas, seleccionadas aleatoriamente
Revisión estratificada por especialidad	Mensual	Al menos 5 notas por especialidad, revisadas por un par de la especialidad
Panel de patrones de error	Mensual	Seguimiento automatizado de tasas y tipos de corrección
Auditorías enfocadas en encuentros de alto riesgo	Continuo	Todos los encuentros señalados como de alto riesgo (ver categorías de alerta arriba)
Auditoría externa	Anual	Revisión independiente de una muestra representativa

Qué buscar en una auditoría

Al revisar una nota fuera del contexto clínico inmediato, usa esta evaluación estructurada:

Dimensiones de precisión:

□ Todos los hallazgos documentados corresponden a lo que se discutió/realizó
□ Sin hallazgos de examen, diagnósticos u órdenes fabricados
□ Nombres de medicamentos, dosis e instrucciones son correctos
□ Las negaciones son precisas (niega vs. refiere)
□ Las relaciones temporales son correctas (mejorando, empeorando, estable)

Dimensiones de completitud:

□ Todos los motivos de consulta y preocupaciones secundarias están documentados
□ Los cambios de medicación y su justificación están capturados
□ El asesoramiento y la toma de decisiones compartida están reflejados
□ Las preferencias y preocupaciones expresadas por el paciente aparecen en la nota

Dimensiones de atribución:

□ Las declaraciones del paciente se atribuyen al paciente
□ Las evaluaciones del clínico son claramente del clínico
□ La información de terceros está correctamente referenciada

El registro de errores: tu activo de control de calidad más valioso

Cada corrección que haces a una nota generada por IA es un dato. Regístralos. Una simple hoja de cálculo compartida funciona:

Fecha	Clínico	Tipo de error	Sección de la nota	Descripción	Gravedad
2026-02-01	Dr. M	Fabricación	Examen Físico	La IA añadió "auscultación pulmonar normal" — no se realizó	Grave
2026-02-01	Dr. M	Omisión	Plan	Derivación a fisioterapia discutida pero no documentada	Moderada
2026-02-01	Dr. L	Malinterpretación	Medicamentos	Dosis registrada como 20mg, discutida como 10mg	Grave

Con el tiempo, este registro revela:

Qué tipos de error son más comunes en tu consulta
Qué secciones de la nota son menos fiables
Qué tipos de encuentro producen más correcciones
Si las tasas de error tienen tendencia al alza o a la baja tras actualizaciones de software

Revisa el registro mensualmente. Si surge un patrón (p. ej., la IA maneja consistentemente mal las instrucciones de reducción gradual de medicación), puedes añadir una verificación específica a tu flujo de trabajo por nota y plantear el problema a tu proveedor.

Implementación práctica: cómo desplegarlo en tu clínica

Semana 1: Evaluación de referencia

Selecciona 10 notas recientes generadas por IA por clínico
Haz que cada clínico las revise usando la checklist de 3 puntos
Registra cada error encontrado (usa el formato de hoja de cálculo anterior)
Calcula una tasa de error de referencia por sección y por tipo

Esto te da una instantánea de la situación actual de tu AI scribe — antes de haber implementado ningún control de calidad sistemático.

Semanas 2–4: Integrar la checklist por nota

Distribuye la checklist de 3 puntos a todos los clínicos
Anima a los clínicos a dedicar los 60–90 segundos extra antes de firmar cada nota
Mantén el registro de errores en marcha
Realiza una breve reunión de equipo (15 minutos) al final de la semana 4 para discutir patrones

Mes 2 en adelante: Establecer la cadencia de auditoría

Elige el nivel de auditoría apropiado de las tablas anteriores según el tamaño de tu consulta
Asigna responsabilidades de auditoría (quién revisa, cuándo, cómo se registran los resultados)
Programa la primera revisión cruzada entre pares
Pon un recordatorio en el calendario para la revisión mensual del registro de errores

Continuo: Adaptar y perfeccionar

Tras actualizaciones del proveedor: Aumenta la frecuencia de auditoría durante dos semanas. Las actualizaciones de software pueden cambiar los patrones de error.
Al incorporar nuevos clínicos: 100% de revisión de notas durante los primeros 30 días. Los clínicos nuevos en AI scribes producen patrones de error diferentes a los de usuarios experimentados — no porque cometan más errores, sino porque sus hábitos de revisión aún no están calibrados.
Cuando las tasas de error se disparan: Investiga la causa antes de continuar con la cadencia normal. Los desencadenantes comunes incluyen actualizaciones de software, cambios en los tipos de encuentro (patrones estacionales) o nuevos flujos de trabajo clínicos.

Qué esperar de tu proveedor de AI scribe

Un proveedor responsable debe ser transparente sobre las limitaciones de su sistema. Al evaluar o reevaluar tu AI scribe, pregunta:

¿Cuál es su tasa de alucinación medida? Si no pueden proporcionar un número, o afirman que es cero, es una señal de alerta. La investigación publicada muestra tasas del 1–3% en los sistemas actuales.
¿Proporcionan indicadores de confianza o de incertidumbre? Algunos sistemas señalan secciones donde la IA tuvo baja confianza. Esto es valioso para una revisión dirigida.
¿Cómo prueban con poblaciones diversas? Los sistemas de reconocimiento de voz exhiben disparidades sistemáticas de rendimiento — tasas de error significativamente más altas para ciertos acentos y dialectos. Pregunta si los datos de precisión están estratificados por demografía del paciente.
¿Qué ocurre cuando aplican una actualización del modelo? Las actualizaciones de software pueden cambiar los patrones de error. Pregunta si el proveedor proporciona registros de cambios, revalida la precisión y notifica a las clínicas sobre cambios que pueden afectar la calidad de la documentación.
¿Puedo acceder a la transcripción en bruto junto con la nota generada? Esta es la función de control de calidad más útil. Si puedes comparar el material fuente de la IA con su resultado, puedes detectar alucinaciones que ninguna checklist revelaría.
¿Su sistema admite pistas de auditoría? Necesitas saber qué generó la IA, qué editó el clínico y qué se firmó finalmente. Esto importa tanto para el control de calidad como para la responsabilidad legal.

La dimensión de responsabilidad legal

Esto no se trata solo de calidad — se trata de exposición legal. El clínico que firma una nota generada por IA es legalmente responsable de su contenido. Los marcos regulatorios actuales en la UE, EE. UU. y Suiza atribuyen el deber de revisión directamente al clínico firmante.

La investigación de aseguradoras de responsabilidad médica es directa en este punto: los errores de documentación debilitan la defensa del clínico en casos de mala praxis. Los jurados e investigadores pueden interpretar la documentación plagada de errores como evidencia de falta de atención. Se han resuelto casos que involucraban una buena atención clínica porque la documentación no era fiable.

Un proceso de control de calidad sistemático no es solo una buena práctica clínica — es gestión de riesgos. Un registro de errores, una cadencia de auditoría documentada y un flujo de revisión consistente demuestran diligencia debida de una manera que "siempre echo un vistazo a la nota antes de firmar" no logra.

Para las clínicas que operan en la UE, los requisitos evolutivos de la Ley de IA de la UE añaden otra capa. Incluso si tu AI scribe se clasifica como de no alto riesgo, se espera que comprendas sus limitaciones y mantengas una supervisión adecuada. Para las consultas suizas, la LPD impone sus propias obligaciones de protección de datos sobre cómo se manejan los datos de pacientes procesados por IA.

El panorama general

Los AI scribes no van a desaparecer. Reducen el tiempo de documentación en márgenes medibles — los estudios muestran una reducción media de 2,6 minutos por cita y una disminución del 29,3% en el trabajo fuera de horario en el sistema de historia clínica electrónica. Para los clínicos abrumados por la carga administrativa, eso es significativo.

Pero el cambio de "yo escribí esta nota" a "yo aprobé esta nota" exige un cambio correspondiente en cómo las clínicas piensan sobre el aseguramiento de calidad. El paso de verificación no es una carga adicional opcional — es el precio del ahorro de tiempo.

El flujo de trabajo descrito en esta guía es deliberadamente ligero. Tres verificaciones por nota. Una auditoría estructurada con una cadencia que se ajusta al tamaño de tu consulta. Un registro de errores que convierte correcciones individuales en conocimiento sistémico. Nada de esto requiere nuevo software, nuevas contrataciones ni un comité. Requiere la decisión de que la documentación generada por IA merece el mismo escrutinio que darías a una nota de un colega junior — porque, funcionalmente, eso es exactamente lo que es.

¿Buscas un AI scribe diseñado con la revisión clínica en mente? Prueba Dya gratis durante 14 días — diseñado para flujos de trabajo clínicos europeos con medidas de calidad integradas.

Lectura relacionada

AI Scribe vs. Dictado vs. Toma de Notas Manual: Una Comparación Práctica — Cómo se comparan los AI scribes con otros métodos de documentación en precisión, tiempo y adaptación al flujo de trabajo.
Ley de IA de la UE en 2026: ¿Tu AI Scribe Cuenta como "Alto Riesgo"? — Un árbol de decisión en lenguaje claro para entender tus obligaciones regulatorias.
Transcripción Médica con IA en Suiza: La Checklist de Cumplimiento de la LPD — Requisitos de protección de datos para documentación clínica procesada por IA bajo la legislación suiza.
Notas Clínicas de Dos Capas: Separar el Registro Clínico del Resumen para el Paciente — Una estructura de documentación que mejora tanto las notas generadas por IA como las escritas por clínicos.
Gobernanza de Plantillas para Clínicas Multiprofesionales — Cómo estandarizar las prácticas de documentación en tu equipo.
Inteligencia Clínica Ambiental en 2026: Consentimiento y Confianza del Paciente — Guiones prácticos de consentimiento y estrategias para clínicas que utilizan IA ambiental.

Referencias

Nayak, A. et al. "A framework to assess clinical safety and hallucination rates of LLMs for medical text summarisation." npj Digital Medicine (2025). https://www.nature.com/articles/s41746-025-01670-7
Nayak, A. et al. "Beyond human ears: navigating the uncharted risks of AI scribes in clinical practice." npj Digital Medicine (2025). https://www.nature.com/articles/s41746-025-01895-6
"Assessing the quality of AI-generated clinical notes: validated evaluation of a large language model ambient scribe." Frontiers in Artificial Intelligence (2025). https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2025.1691499/full
"Patient Safety Risks from AI Scribes: Signals from End-User Feedback." arXiv (2025). https://arxiv.org/html/2512.04118
"Evaluating the Usability, Technical Performance, and Accuracy of Artificial Intelligence Scribes for Primary Care." JMIR Human Factors (2025). https://pmc.ncbi.nlm.nih.gov/articles/PMC12309782/
"AI Scribes Pose Liability Risks." MICA Insurance (2025). https://www.mica-insurance.com/blog/posts/ai-scribes-pose-liability-risks/
"Artificial Intelligence Scribe and Large Language Model Technology in Healthcare Documentation: Advantages, Limitations, and Recommendations." PMC (2025). https://pmc.ncbi.nlm.nih.gov/articles/PMC11737491/
"Using AI Medical Scribes: Risk Management Considerations." TMLT (2025). https://www.tmlt.org/resource/using-ai-medical-scribes-risk-management-considerations
AHIMA Clinical Documentation Improvement Toolkit. https://www.ahima.org/
"Artificial Intelligence Scribes Shape Health Care Delivery." AAFP (2025). https://www.aafp.org/pubs/afp/issues/2025/0400/graham-center-artificial-intelligence-scribes.html