Checklist de Alucinaciones del AI Scribe: 3 Cosas que Verificar Cada Vez
Detecta errores del AI scribe antes de que lleguen al historial. Una checklist práctica de control de calidad con categorías de alerta, pasos de verificación y ejemplos para documentación clínica.
Escrito por
Equipo Clínico Dya
Expertos en Documentación Clínica
Firmas una nota generada por IA. Parece correcta. El formato es limpio, las secciones están completas y el lenguaje es profesional. Dos semanas después, un colega consulta esa nota durante un seguimiento y descubre que documenta un hallazgo del examen físico que nunca ocurrió.
Este no es un riesgo teórico. Un estudio de 2025 publicado en npj Digital Medicine que analizó 12.999 frases anotadas por clínicos en 450 notas clínicas generadas por IA encontró una tasa de alucinación del 1,47%, y el 44% de esas frases alucinadas se clasificaron como "graves", es decir, que podrían afectar directamente al diagnóstico o tratamiento si no se corregían. El mismo estudio observó una tasa de omisión del 3,45%, con omisiones mucho más frecuentes aunque individualmente menos peligrosas.
Un uno coma cuarenta y siete por ciento suena pequeño. Multiplícalo por cada nota, cada día, cada clínico de tu consulta, y las cifras dejan de parecer pequeñas. Un profesional independiente que atiende a 25 pacientes al día genera aproximadamente 250 frases documentables. Estadísticamente, tres o cuatro de esas frases contendrán contenido alucinado cada día.
El problema no es que los AI scribes sean poco fiables — ahorran tiempo real y reducen el agotamiento. El problema es que la mayoría de las clínicas no tienen un proceso sistemático para detectar los errores que estas herramientas introducen. Esta guía proporciona uno.
Qué significa realmente "alucinación" en documentación clínica
En la investigación sobre IA, "alucinación" se refiere a contenido generado que parece plausible pero no tiene fundamento en el material de origen. En documentación clínica, esto se traduce en modos de fallo específicos que difieren de los errores de transcripción tradicionales.
Las cuatro categorías de error
La investigación de múltiples estudios converge en cuatro categorías distintas de errores del AI scribe:
1. Fabricaciones La IA inventa contenido que nunca se discutió ni se observó. Esta es la categoría más peligrosa. Ejemplos documentados incluyen:
- Hallazgos del examen físico que nunca se realizaron (la IA "completa" hallazgos esperados basándose en el motivo de consulta)
- Medicamentos que el paciente nunca mencionó — en un caso reportado, un AI scribe sustituyó "Aveli para celulitis" por "Qwo para celulitis", un producto que ya no estaba en el mercado, porque Qwo era más común en sus datos de entrenamiento
- Diagnósticos inferidos del contexto en lugar de expresados por el clínico
- Valores de laboratorio o resultados de imagen que no se discutieron
2. Omisiones Información crítica discutida durante el encuentro está ausente de la nota. Aunque individualmente menos peligrosas que las fabricaciones, las omisiones erosionan la utilidad clínica de la nota con el tiempo:
- Síntomas reportados por el paciente mencionados en la conversación pero ausentes de la HPI
- Cambios de medicación discutidos pero no reflejados en el plan
- Detalles de historia social relevantes para el tratamiento que la IA consideró no esenciales
- Contraindicaciones o alergias mencionadas verbalmente pero no documentadas
3. Malinterpretaciones La IA captura algo que se dijo pero le asigna un significado clínico incorrecto:
- Un paciente reporta discontinuar un medicamento, y la nota registra una nueva prescripción
- Un diagnóstico diferencial discutido como improbable queda documentado como un hallazgo confirmado
- Los cambios de dosis se capturan con valores incorrectos
- Las relaciones temporales se invierten ("mejorando" se convierte en "empeorando" o viceversa)
4. Atribución errónea El sistema confunde quién dijo qué. Esto importa porque el razonamiento clínico depende de si una declaración es un reporte del paciente, una evaluación del clínico o un hallazgo referido:
- Preocupaciones del paciente documentadas como evaluaciones del clínico
- Asesoramiento iniciado por el clínico registrado como quejas iniciadas por el paciente
- Antecedentes familiares atribuidos a la propia historia del paciente
- Información de terceros (de un médico remitente o familiar) atribuida a la fuente equivocada
Dónde se concentran las alucinaciones
No todas las secciones de una nota clínica tienen el mismo riesgo. La investigación identifica consistentemente ciertas secciones como más propensas a la alucinación de la IA:
| Sección de la nota | Riesgo de alucinación | Por qué |
|---|---|---|
| Plan | Más alto (21% de alucinaciones graves) | Requiere razonamiento clínico que la IA solo puede aproximar |
| Examen físico | Muy alto | La IA tiende a "completar" hallazgos esperados según el motivo de consulta |
| Evaluación | Alto (10,5% de alucinaciones graves) | Sintetizar información requiere juicio, no solo transcripción |
| Síntomas / HPI | Moderado (5,2%) | La IA puede inferir síntomas del contexto en lugar de lo que se dijo |
| Medicamentos | Moderado–Alto (18,5% de retroalimentación de seguridad) | Nombres de fármacos, dosis e instrucciones se confunden frecuentemente |
| Subjetivo / Historia | Menor pero presente | Generalmente más fiel al contenido hablado |
Comprender esta distribución es la base de un proceso de control de calidad eficiente. No necesitas verificar cada frase con el mismo escrutinio — necesitas saber dónde mirar con más atención.
La checklist de verificación de 3 puntos: qué comprobar cada vez
Antes de firmar cualquier nota generada por IA, repasa estos tres pasos de verificación. Están ordenados por gravedad clínica y diseñados para detectar las categorías de error más importantes.
Verificación 1: ¿Realmente hice, dije u ordené esto?
Objetivo: Fabricaciones en las secciones de Examen Físico, Evaluación y Plan.
Lee la sección del examen físico y hazte una pregunta: ¿realmente realicé y documenté cada uno de estos hallazgos? Los AI scribes son particularmente propensos a generar hallazgos "de plantilla" que coinciden con el motivo de consulta pero que nunca se evaluaron realmente. Si el paciente acudió por dolor de rodilla, la IA puede generar un examen musculoesquelético completo aunque solo se palpó la articulación afectada.
Luego revisa el Plan. Cada orden, derivación, prescripción e instrucción de seguimiento debe coincidir con lo que realmente se discutió. Presta especial atención a:
- Medicamentos que no prescribiste — la IA puede inferir una prescripción a partir de una discusión sobre opciones de medicación
- Diagnósticos que no confirmaste — los diagnósticos diferenciales discutidos como posibilidades pueden aparecer como evaluaciones confirmadas
- Plazos de seguimiento que no estableciste — la IA puede insertar intervalos de seguimiento "estándar" basados en el diagnóstico
Señal de alerta: Cualquier hallazgo, orden o diagnóstico que no recuerdes específicamente haber discutido o realizado.
Verificación 2: ¿Hay algo clínicamente invertido?
Objetivo: Malinterpretaciones, especialmente en Medicamentos, Síntomas y la narrativa temporal.
Esta verificación detecta errores donde la IA captó el tema correcto pero se equivocó en la dirección. Busca:
- Dirección del medicamento: ¿Se inició, suspendió, aumentó o disminuyó un medicamento? Verifica que cada cambio coincida con lo que se discutió. La malinterpretación más peligrosa es documentar una suspensión como una continuación (o viceversa).
- Trayectoria de los síntomas: ¿Refleja la nota si los síntomas están mejorando, estables o empeorando? La IA puede invertir estos, especialmente cuando la conversación incluye tanto el estado histórico como el actual.
- Negaciones: "El paciente niega dolor torácico" vs. "El paciente refiere dolor torácico" — una sola negación omitida invierte el cuadro clínico. Los errores de negación representan aproximadamente el 30% de las frases alucinadas.
- Lateralidad y anatomía: Izquierda vs. derecha, superior vs. inferior, proximal vs. distal. Estos errores son fáciles de cometer y difíciles de detectar en una lectura rápida.
Señal de alerta: Cualquier cambio de medicación, descripción de síntomas o hallazgo que se sienta direccionalmente "incorrecto" respecto a lo que recuerdas.
Verificación 3: ¿Falta algo importante?
Objetivo: Omisiones en todas las secciones.
Esta es la verificación más difícil porque estás buscando lo que no está ahí. Concéntrate en:
- El motivo de consulta y cualquier preocupación secundaria que el paciente planteó — ¿llegaron todas a la nota?
- Cambios de medicación — ¿se capturaron todos los ajustes discutidos, incluyendo la justificación?
- Alergias, contraindicaciones o reacciones adversas reportadas por el paciente discutidas durante la visita
- Asesoramiento y toma de decisiones compartida — si discutiste riesgos, alternativas u obtuviste consentimiento verbal para un procedimiento, ¿está documentado?
- Determinantes sociales mencionados por el paciente que afectan el plan de atención (inestabilidad de vivienda, barreras de transporte, condición de cuidador)
Señal de alerta: Un tema de conversación que recuerdas claramente y que no aparece en ninguna parte de la nota.
Ponerlo en práctica
Esta checklist debería tomar 60–90 segundos por nota una vez que se convierte en hábito. Para contexto, la investigación muestra que los clínicos dedican 5–10 minutos a revisar y editar notas generadas por IA frente a 30–45 minutos escribiendo desde cero. Añadir una verificación estructurada no elimina el ahorro de tiempo — lo protege.
Un enfoque práctico:
- Lee primero la sección del Plan (mayor riesgo de alucinación)
- Revisa el Examen Físico buscando cualquier hallazgo que no realizaste
- Verifica cada entrada de medicamento respecto a fármaco, dosis, dirección e instrucciones correctas
- Verifica la trayectoria de los síntomas y las negaciones en la HPI
- Reproduce mentalmente el encuentro y busca temas faltantes
Categorías de alerta: patrones que exigen mayor escrutinio
Más allá de la checklist por nota, ciertos tipos de encuentros y escenarios clínicos conllevan un riesgo elevado de alucinación. Cuando reconozcas uno de estos patrones, reduce la velocidad.
1. Encuentros con múltiples cambios de medicación
Cuantos más medicamentos se discutan, más oportunidades tiene la IA de confundir nombres, dosis o direcciones. Las discusiones de polifarmacia y las visitas de conciliación de medicación merecen una verificación línea por línea de cada fármaco mencionado.
Por qué es arriesgado: Los modelos de IA pueden sustituir un nombre de fármaco por otro si el fármaco discutido es poco común en sus datos de entrenamiento. La sustitución de Aveli/Qwo mencionada anteriormente es un ejemplo, pero el mismo patrón se aplica a la confusión genérico/marca, fármacos con nombres similares y usos fuera de indicación que el modelo no ha encontrado frecuentemente.
2. Diagnósticos diferenciales complejos
Cuando discutes múltiples posibles diagnósticos y luego reduces a uno, la IA puede documentar una de las condiciones descartadas como confirmada. Esto es especialmente peligroso para condiciones con vías de tratamiento significativamente diferentes.
Por qué es arriesgado: Las secciones de Evaluación y Plan requieren razonamiento clínico que los LLMs aproximan mediante reconocimiento de patrones. El modelo no puede distinguir "discutimos X como posibilidad" de "el diagnóstico es X" con la misma fiabilidad con que transcribe declaraciones factuales.
3. Conversaciones con contexto no verbal significativo
Si una decisión clínica clave se basó en algo que observaste (anomalía de la marcha, afecto, aspecto de la piel, características de una herida) en lugar de algo dicho en voz alta, la IA no tiene material fuente con el que trabajar. Puede omitir completamente el hallazgo o — peor aún — fabricar un hallazgo basándose en lo que espera dado el diagnóstico.
Por qué es arriesgado: Los AI scribes están fundamentalmente limitados a la entrada de audio. La investigación confirma que no pueden captar la comunicación no verbal, los signos visuales de malestar ni los hallazgos físicos observados pero no verbalizados.
4. Encuentros que involucran temas sensibles
Las discusiones sobre salud mental, consumo de sustancias, violencia doméstica o salud sexual requieren un lenguaje preciso. La IA puede generalizar, eufemizar o atribuir erróneamente declaraciones de formas que tergiversan lo que el paciente reveló.
Por qué es arriesgado: Estos temas frecuentemente involucran dinámicas conversacionales matizadas — pausas, revelaciones indirectas, formulación cuidadosa por parte del clínico — que son difíciles de interpretar correctamente para la IA.
5. Encuentros con múltiples interlocutores
Cuando un familiar, intérprete, cuidador u otro profesional está presente, la IA puede tener dificultades con la identificación de los hablantes. La información clínica atribuida a la persona equivocada puede distorsionar significativamente el registro.
Por qué es arriesgado: La diarización de hablantes (identificar quién dijo qué) es una limitación conocida del audio de IA actual. Las tasas de atribución errónea aumentan con cada hablante adicional.
6. Visitas donde el paciente contradice registros previos
Si un paciente proporciona antecedentes que difieren de su historial existente — corrigiendo un diagnóstico previo, actualizando listas de medicación o aclarando una alergia — la IA puede recurrir a la información "esperada" en lugar de a la corrección.
Por qué es arriesgado: Los LLMs están entrenados con patrones. Cuando la información declarada por el paciente contradice el conocimiento médico común o los patrones típicos, el modelo puede anular sutilmente las palabras reales del paciente con lo que considera más probable.
La cadencia de auditoría: un protocolo de muestreo y revisión
La checklist por nota detecta errores en tiempo real. Pero también necesitas un proceso sistemático para monitorizar si la IA está desviándose — introduciendo nuevos patrones de error, funcionando peor en ciertos contextos o desarrollando puntos ciegos que no has notado porque son consistentes en todas las notas.
Por qué importa el muestreo
No puedes auditar en profundidad cada nota. Lo que sí puedes hacer es extraer periódicamente una muestra aleatoria y revisarla con ojos frescos — o mejor aún, que un colega la revise. Esto detecta los errores que se vuelven invisibles cuando revisas tus propias notas en tiempo real, particularmente omisiones y malinterpretaciones sutiles que confirman tus expectativas.
Cadencia de auditoría recomendada
No existe un estándar universal para la frecuencia de auditoría de documentación clínica. El CDI Toolkit de AHIMA reconoce esto y recomienda que cada organización defina su propia cadencia según el volumen y el riesgo. Basándose en la literatura existente de control de calidad sanitario y los riesgos específicos de la documentación generada por IA, aquí hay un marco práctico:
Para profesionales independientes y consultas pequeñas (1–3 clínicos)
| Actividad | Frecuencia | Volumen |
|---|---|---|
| Relectura completa contra audio (si está disponible) | Semanal | 2–3 notas por clínico |
| Revisión cruzada entre pares | Mensual | 5 notas por clínico, revisadas por un colega |
| Revisión del registro de errores | Mensual | Revisar todas las correcciones realizadas durante el mes |
| Verificación de precisión del proveedor | Trimestral | Comparar 10 notas contra transcripciones o audio originales |
Para consultas medianas (4–15 clínicos)
| Actividad | Frecuencia | Volumen |
|---|---|---|
| Relectura completa contra audio | Semanal | 1–2 notas por clínico |
| Revisión entre pares estructurada | Quincenal | 3 notas por clínico, usando una rúbrica estandarizada |
| Análisis de patrones de error | Mensual | Agregar correcciones de todos los clínicos para identificar tendencias |
| Auditoría de incorporación de nuevos clínicos | Primeros 30 días | 100% de revisión de notas generadas por IA para cada nuevo usuario |
| Verificación de precisión del proveedor | Trimestral | Comparar 20 notas contra audio o transcripciones fuente |
Para clínicas y redes grandes (15+ clínicos)
| Actividad | Frecuencia | Volumen |
|---|---|---|
| Muestreo aleatorio | Semanal | 3% del total de notas, seleccionadas aleatoriamente |
| Revisión estratificada por especialidad | Mensual | Al menos 5 notas por especialidad, revisadas por un par de la especialidad |
| Panel de patrones de error | Mensual | Seguimiento automatizado de tasas y tipos de corrección |
| Auditorías enfocadas en encuentros de alto riesgo | Continuo | Todos los encuentros señalados como de alto riesgo (ver categorías de alerta arriba) |
| Auditoría externa | Anual | Revisión independiente de una muestra representativa |
Qué buscar en una auditoría
Al revisar una nota fuera del contexto clínico inmediato, usa esta evaluación estructurada:
Dimensiones de precisión:
- □ Todos los hallazgos documentados corresponden a lo que se discutió/realizó
- □ Sin hallazgos de examen, diagnósticos u órdenes fabricados
- □ Nombres de medicamentos, dosis e instrucciones son correctos
- □ Las negaciones son precisas (niega vs. refiere)
- □ Las relaciones temporales son correctas (mejorando, empeorando, estable)
Dimensiones de completitud:
- □ Todos los motivos de consulta y preocupaciones secundarias están documentados
- □ Los cambios de medicación y su justificación están capturados
- □ El asesoramiento y la toma de decisiones compartida están reflejados
- □ Las preferencias y preocupaciones expresadas por el paciente aparecen en la nota
Dimensiones de atribución:
- □ Las declaraciones del paciente se atribuyen al paciente
- □ Las evaluaciones del clínico son claramente del clínico
- □ La información de terceros está correctamente referenciada
El registro de errores: tu activo de control de calidad más valioso
Cada corrección que haces a una nota generada por IA es un dato. Regístralos. Una simple hoja de cálculo compartida funciona:
| Fecha | Clínico | Tipo de error | Sección de la nota | Descripción | Gravedad |
|---|---|---|---|---|---|
| 2026-02-01 | Dr. M | Fabricación | Examen Físico | La IA añadió "auscultación pulmonar normal" — no se realizó | Grave |
| 2026-02-01 | Dr. M | Omisión | Plan | Derivación a fisioterapia discutida pero no documentada | Moderada |
| 2026-02-01 | Dr. L | Malinterpretación | Medicamentos | Dosis registrada como 20mg, discutida como 10mg | Grave |
Con el tiempo, este registro revela:
- Qué tipos de error son más comunes en tu consulta
- Qué secciones de la nota son menos fiables
- Qué tipos de encuentro producen más correcciones
- Si las tasas de error tienen tendencia al alza o a la baja tras actualizaciones de software
Revisa el registro mensualmente. Si surge un patrón (p. ej., la IA maneja consistentemente mal las instrucciones de reducción gradual de medicación), puedes añadir una verificación específica a tu flujo de trabajo por nota y plantear el problema a tu proveedor.
Implementación práctica: cómo desplegarlo en tu clínica
Semana 1: Evaluación de referencia
- Selecciona 10 notas recientes generadas por IA por clínico
- Haz que cada clínico las revise usando la checklist de 3 puntos
- Registra cada error encontrado (usa el formato de hoja de cálculo anterior)
- Calcula una tasa de error de referencia por sección y por tipo
Esto te da una instantánea de la situación actual de tu AI scribe — antes de haber implementado ningún control de calidad sistemático.
Semanas 2–4: Integrar la checklist por nota
- Distribuye la checklist de 3 puntos a todos los clínicos
- Anima a los clínicos a dedicar los 60–90 segundos extra antes de firmar cada nota
- Mantén el registro de errores en marcha
- Realiza una breve reunión de equipo (15 minutos) al final de la semana 4 para discutir patrones
Mes 2 en adelante: Establecer la cadencia de auditoría
- Elige el nivel de auditoría apropiado de las tablas anteriores según el tamaño de tu consulta
- Asigna responsabilidades de auditoría (quién revisa, cuándo, cómo se registran los resultados)
- Programa la primera revisión cruzada entre pares
- Pon un recordatorio en el calendario para la revisión mensual del registro de errores
Continuo: Adaptar y perfeccionar
- Tras actualizaciones del proveedor: Aumenta la frecuencia de auditoría durante dos semanas. Las actualizaciones de software pueden cambiar los patrones de error.
- Al incorporar nuevos clínicos: 100% de revisión de notas durante los primeros 30 días. Los clínicos nuevos en AI scribes producen patrones de error diferentes a los de usuarios experimentados — no porque cometan más errores, sino porque sus hábitos de revisión aún no están calibrados.
- Cuando las tasas de error se disparan: Investiga la causa antes de continuar con la cadencia normal. Los desencadenantes comunes incluyen actualizaciones de software, cambios en los tipos de encuentro (patrones estacionales) o nuevos flujos de trabajo clínicos.
Qué esperar de tu proveedor de AI scribe
Un proveedor responsable debe ser transparente sobre las limitaciones de su sistema. Al evaluar o reevaluar tu AI scribe, pregunta:
-
¿Cuál es su tasa de alucinación medida? Si no pueden proporcionar un número, o afirman que es cero, es una señal de alerta. La investigación publicada muestra tasas del 1–3% en los sistemas actuales.
-
¿Proporcionan indicadores de confianza o de incertidumbre? Algunos sistemas señalan secciones donde la IA tuvo baja confianza. Esto es valioso para una revisión dirigida.
-
¿Cómo prueban con poblaciones diversas? Los sistemas de reconocimiento de voz exhiben disparidades sistemáticas de rendimiento — tasas de error significativamente más altas para ciertos acentos y dialectos. Pregunta si los datos de precisión están estratificados por demografía del paciente.
-
¿Qué ocurre cuando aplican una actualización del modelo? Las actualizaciones de software pueden cambiar los patrones de error. Pregunta si el proveedor proporciona registros de cambios, revalida la precisión y notifica a las clínicas sobre cambios que pueden afectar la calidad de la documentación.
-
¿Puedo acceder a la transcripción en bruto junto con la nota generada? Esta es la función de control de calidad más útil. Si puedes comparar el material fuente de la IA con su resultado, puedes detectar alucinaciones que ninguna checklist revelaría.
-
¿Su sistema admite pistas de auditoría? Necesitas saber qué generó la IA, qué editó el clínico y qué se firmó finalmente. Esto importa tanto para el control de calidad como para la responsabilidad legal.
La dimensión de responsabilidad legal
Esto no se trata solo de calidad — se trata de exposición legal. El clínico que firma una nota generada por IA es legalmente responsable de su contenido. Los marcos regulatorios actuales en la UE, EE. UU. y Suiza atribuyen el deber de revisión directamente al clínico firmante.
La investigación de aseguradoras de responsabilidad médica es directa en este punto: los errores de documentación debilitan la defensa del clínico en casos de mala praxis. Los jurados e investigadores pueden interpretar la documentación plagada de errores como evidencia de falta de atención. Se han resuelto casos que involucraban una buena atención clínica porque la documentación no era fiable.
Un proceso de control de calidad sistemático no es solo una buena práctica clínica — es gestión de riesgos. Un registro de errores, una cadencia de auditoría documentada y un flujo de revisión consistente demuestran diligencia debida de una manera que "siempre echo un vistazo a la nota antes de firmar" no logra.
Para las clínicas que operan en la UE, los requisitos evolutivos de la Ley de IA de la UE añaden otra capa. Incluso si tu AI scribe se clasifica como de no alto riesgo, se espera que comprendas sus limitaciones y mantengas una supervisión adecuada. Para las consultas suizas, la LPD impone sus propias obligaciones de protección de datos sobre cómo se manejan los datos de pacientes procesados por IA.
El panorama general
Los AI scribes no van a desaparecer. Reducen el tiempo de documentación en márgenes medibles — los estudios muestran una reducción media de 2,6 minutos por cita y una disminución del 29,3% en el trabajo fuera de horario en el sistema de historia clínica electrónica. Para los clínicos abrumados por la carga administrativa, eso es significativo.
Pero el cambio de "yo escribí esta nota" a "yo aprobé esta nota" exige un cambio correspondiente en cómo las clínicas piensan sobre el aseguramiento de calidad. El paso de verificación no es una carga adicional opcional — es el precio del ahorro de tiempo.
El flujo de trabajo descrito en esta guía es deliberadamente ligero. Tres verificaciones por nota. Una auditoría estructurada con una cadencia que se ajusta al tamaño de tu consulta. Un registro de errores que convierte correcciones individuales en conocimiento sistémico. Nada de esto requiere nuevo software, nuevas contrataciones ni un comité. Requiere la decisión de que la documentación generada por IA merece el mismo escrutinio que darías a una nota de un colega junior — porque, funcionalmente, eso es exactamente lo que es.
¿Buscas un AI scribe diseñado con la revisión clínica en mente? Prueba Dya gratis durante 14 días — diseñado para flujos de trabajo clínicos europeos con medidas de calidad integradas.
Lectura relacionada
- AI Scribe vs. Dictado vs. Toma de Notas Manual: Una Comparación Práctica — Cómo se comparan los AI scribes con otros métodos de documentación en precisión, tiempo y adaptación al flujo de trabajo.
- Ley de IA de la UE en 2026: ¿Tu AI Scribe Cuenta como "Alto Riesgo"? — Un árbol de decisión en lenguaje claro para entender tus obligaciones regulatorias.
- Transcripción Médica con IA en Suiza: La Checklist de Cumplimiento de la LPD — Requisitos de protección de datos para documentación clínica procesada por IA bajo la legislación suiza.
- Notas Clínicas de Dos Capas: Separar el Registro Clínico del Resumen para el Paciente — Una estructura de documentación que mejora tanto las notas generadas por IA como las escritas por clínicos.
- Gobernanza de Plantillas para Clínicas Multiprofesionales — Cómo estandarizar las prácticas de documentación en tu equipo.
- Inteligencia Clínica Ambiental en 2026: Consentimiento y Confianza del Paciente — Guiones prácticos de consentimiento y estrategias para clínicas que utilizan IA ambiental.
Referencias
- Nayak, A. et al. "A framework to assess clinical safety and hallucination rates of LLMs for medical text summarisation." npj Digital Medicine (2025). https://www.nature.com/articles/s41746-025-01670-7
- Nayak, A. et al. "Beyond human ears: navigating the uncharted risks of AI scribes in clinical practice." npj Digital Medicine (2025). https://www.nature.com/articles/s41746-025-01895-6
- "Assessing the quality of AI-generated clinical notes: validated evaluation of a large language model ambient scribe." Frontiers in Artificial Intelligence (2025). https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2025.1691499/full
- "Patient Safety Risks from AI Scribes: Signals from End-User Feedback." arXiv (2025). https://arxiv.org/html/2512.04118
- "Evaluating the Usability, Technical Performance, and Accuracy of Artificial Intelligence Scribes for Primary Care." JMIR Human Factors (2025). https://pmc.ncbi.nlm.nih.gov/articles/PMC12309782/
- "AI Scribes Pose Liability Risks." MICA Insurance (2025). https://www.mica-insurance.com/blog/posts/ai-scribes-pose-liability-risks/
- "Artificial Intelligence Scribe and Large Language Model Technology in Healthcare Documentation: Advantages, Limitations, and Recommendations." PMC (2025). https://pmc.ncbi.nlm.nih.gov/articles/PMC11737491/
- "Using AI Medical Scribes: Risk Management Considerations." TMLT (2025). https://www.tmlt.org/resource/using-ai-medical-scribes-risk-management-considerations
- AHIMA Clinical Documentation Improvement Toolkit. https://www.ahima.org/
- "Artificial Intelligence Scribes Shape Health Care Delivery." AAFP (2025). https://www.aafp.org/pubs/afp/issues/2025/0400/graham-center-artificial-intelligence-scribes.html