La Universidad de Duke Establece un Nuevo Estándar Nacional para una IA Segura y Escalable en la Atención Sanitaria

La Universidad de Duke Establece un Nuevo Estándar Nacional para una IA Segura y Escalable en la Atención Sanitaria

DURHAM, N.C. — Investigadores de la Escuela de Medicina de la Universidad de Duke han desarrollado dos marcos pioneros diseñados para evaluar el rendimiento, la seguridad y la fiabilidad de los modelos de lenguaje a gran escala en el ámbito de la salud.

Publicados en npj Digital Medicine y en el Journal of the American Medical Informatics Association (JAMIA), estos estudios ofrecen un nuevo enfoque para asegurar que los sistemas de IA utilizados en entornos clínicos cumplan con los más altos estándares de calidad y responsabilidad.

A medida que los modelos de lenguaje a gran escala se incorporan cada vez más en la práctica médica —generando notas clínicas, resumiendo conversaciones y asistiendo en las comunicaciones con los pacientes— los sistemas de salud enfrentan el desafío de evaluar estas tecnologías de maneras que sean rigurosas y escalables. Los estudios liderados por Duke, bajo la dirección de Chuan Hong, Ph.D., profesor asistente en el Departamento de Bioestadística y Bioinformática de Duke, buscan llenar ese vacío.

El estudio de npj Digital Medicine introduce SCRIBE, un marco de evaluación estructurado para herramientas de Scripting Digital Ambiental. Estos sistemas de IA generan documentación clínica a partir de conversaciones en tiempo real entre pacientes y proveedores. SCRIBE se basa en revisiones clínicas de expertos, métodos de puntuación automatizados y pruebas de casos límite simulados para evaluar qué tan bien estas herramientas desempeñan en dimensiones como precisión, equidad, coherencia y resiliencia.

“La IA ambiental tiene una gran promesa para reducir la carga de documentación para los clínicos”, dijo Hong. “Pero la evaluación cuidadosa es esencial. Sin ella, corremos el riesgo de implementar herramientas que podrían introducir sesgo involuntariamente, omitir información crítica o disminuir la calidad de la atención. SCRIBE está diseñado para ayudar a prevenir eso.”

Un segundo estudio relacionado en JAMIA aplica un marco complementario para evaluar los modelos de lenguaje grandes utilizados por la plataforma Epic de registros médicos electrónicos para redactar respuestas a mensajes de pacientes. La investigación compara la retroalimentación de los clínicos con métricas automatizadas para evaluar aspectos como claridad, integridad y seguridad. Mientras que el estudio encontró un buen desempeño en tono y legibilidad, también reveló lagunas en la integridad de las respuestas, enfatizando la importancia de la evaluación continua en la práctica.

“Este trabajo ayuda a cerrar la brecha entre algoritmos innovadores y el valor clínico en el mundo real”, dijo Michael Pencina, Ph.D., director de ciencia de datos en Duke Health y coautor de ambos estudios. “Estamos mostrando lo que se necesita para implementar la IA de manera responsable, y cómo la evaluación rigurosa debe ser parte del ciclo de vida de la tecnología, no un pensamiento posterior.”

Juntos, estos marcos forman una base para la adopción responsable de la IA en la atención médica. Proporcionan a los líderes clínicos, desarrolladores y reguladores las herramientas para evaluar los modelos de IA antes de su implementación y monitorear su rendimiento a lo largo del tiempo, asegurando que apoyen la atención sin comprometer la seguridad o la confianza.

Además de Pencina y Hong, los autores del estudio incluyen: Haoyuan Wang, Rui Yang, Mahmoud Alwakeel, Ankit Kayastha, Anand Chowdhury, Joshua M. Biro, Anthony D. Sorrentino, Jessica L. Handley, Sarah Hantzmon, Sophia Bessias, Nicoleta J. Economou-Zavlanos, Armando Bedoya, Monica Agrawal, Raj M. Ratwani, Eric G. Poon y Kathryn I. Pollak.

La investigación en npj recibió apoyo financiero de la Agencia para la Investigación y la Calidad en la Atención Médica (1R03HS030307-01).

Para más contenido especializado y actualizaciones, suscríbete a nuestro boletín.