ChatGPT Health no logra clasificar el 52% de las verdaderas emergencias

Un nuevo estudio publicado en Nature Medicine el 24 de febrero encontró que ChatGPT Health, la herramienta de salud orientada al consumidor de OpenAI, no logró dirigir adecuadamente a los usuarios a atención de emergencia en más de la mitad de los casos médicos graves. Los investigadores de la Escuela de Medicina Icahn de Mount Sinai diseñaron 60 escenarios clínicos que abarcan 21 especialidades médicas, desde afecciones menores adecuadas para la atención domiciliaria hasta verdaderas emergencias. Tres médicos independientes establecieron el nivel correcto de urgencia para cada caso utilizando directrices de 56 sociedades médicas. Luego, cada escenario se probó bajo 16 condiciones contextuales diferentes, incluidas variaciones en raza, género, dinámica social y barreras a la atención, como la falta de seguro, lo que produjo un total de 960 interacciones con ChatGPT Health.

Los resultados revelaron un patrón de rendimiento en “forma de U invertida”. Si bien ChatGPT Health manejó correctamente las emergencias de los libros de texto, como derrames cerebrales y anafilaxia, no evaluó el 52 por ciento de los casos que los médicos consideraron verdaderas emergencias, dirigiendo a los pacientes con afecciones como cetoacidosis diabética e insuficiencia respiratoria inminente hacia una evaluación de 24 a 48 horas en lugar del departamento de emergencias. El sistema también clasificó erróneamente el 35 por ciento de los casos no urgentes.

Sam Altman explica por qué OpenAI suspende Sora

Particularmente preocupante fue la susceptibilidad de la herramienta al sesgo de anclaje: cuando los familiares o amigos minimizaron los síntomas en las indicaciones, las recomendaciones de clasificación cambiaron drásticamente hacia una atención menos urgente, con un índice de probabilidades de 11,7. “ChatGPT Health tuvo un buen desempeño en emergencias de libros de texto, como accidentes cerebrovasculares o reacciones alérgicas graves”, afirmó el Dr. Ashwin Ramaswamy, uno de los autores correspondientes del estudio. “Pero tuvo problemas en situaciones más matizadas donde el peligro no es inmediatamente obvio, y esos son a menudo los casos en los que el juicio clínico es más importante”.

El estudio también expuso inconsistencias preocupantes en el sistema de intervención en crisis de ChatGPT Health. La herramienta fue diseñada para dirigir a los usuarios a 988 Suicide and Crisis Lifeline en situaciones de alto riesgo, pero los investigadores descubrieron que estas alertas aparecían de manera más confiable cuando los usuarios no describían ningún método específico de autolesión que cuando articulaban un plan concreto, invirtiendo efectivamente la relación entre el nivel de riesgo y la activación de salvaguardas. El Dr. Girish Nadkarni, director de inteligencia artificial de Mount Sinai y otro autor correspondiente del estudio, describió el hallazgo como “más allá de la inconsistencia”, y señaló que “las alertas del sistema estaban invertidas en relación con el riesgo clínico”.

Oxford y la Universidad de Ciencias de Tokio avanzan en materiales para baterías

Los hallazgos llegan en un momento de rápida adopción por parte de los consumidores. OpenAI lanzó ChatGPT Health en enero de 2026 y la compañía informó que aproximadamente 40 millones de personas usaban ChatGPT diariamente para preguntas relacionadas con la salud. A principios de este año, la organización sin fines de lucro para la seguridad del paciente ECRI clasificó el uso indebido de los chatbots de IA en la atención médica como el principal peligro de la tecnología sanitaria para 2026, advirtiendo que las herramientas “pueden proporcionar información falsa o engañosa que podría resultar en un daño significativo al paciente”.

El equipo de Mount Sinai no encontró efectos estadísticamente detectables de la raza, el género o las barreras a la atención de los pacientes en los resultados de la clasificación, aunque los intervalos de confianza del estudio no descartaron diferencias clínicamente significativas. Los investigadores dijeron que planean continuar evaluando versiones actualizadas de ChatGPT Health y otras herramientas de inteligencia artificial para consumidores, y que las investigaciones futuras se expandirán a la atención pediátrica, la seguridad de los medicamentos y el uso de idiomas distintos del inglés.

iOS 27 de Apple presentará las herramientas fotográficas de IA "Extender" y "Reframe"

Crédito de imagen destacada

ChatGPT Health no logra clasificar el 52% de las verdaderas emergencias

Related Stories

Apple trae controles de voz Siri más personales a la beta 3

Un estudio antrópico encuentra que los modelos de Claude forman un espacio de trabajo interno que se asemeja a la conciencia

Apple activa Siri AI en Apple Watch en watchOS 27 beta 3

Se rumorea que Apple lanzará el iPhone Ultra plegable en 2026