En un innovador artículo de investigación publicado por OpenAI, los investigadores han proporcionado una explicación matemática rigurosa de por qué los modelos de lenguajes grandes (LLM, por sus siglas en inglés) como ChatGPT alucinan con frecuencia, generando información falsa con confianza. El estudio, publicado el 16 de septiembre de 2025 por Wei Xing en The Conversation, sostiene que este problema no es simplemente un defecto de entrenamiento, sino una consecuencia inherente de cómo operan estos modelos. Si bien el documento ofrece soluciones potenciales, subraya que implementarlas podría alterar las experiencias de los usuarios y disparar los costos computacionales, lo que haría poco probable una adopción generalizada para las aplicaciones de consumo.
El problema central surge de la naturaleza autorregresiva de los LLM, que generan respuestas prediciendo una palabra a la vez basándose en probabilidades derivadas de datos de entrenamiento. Este proceso secuencial conduce inherentemente a la acumulación de errores. Según los investigadores, la tasa de error total al generar una oración completa es al menos el doble que la tasa de error de una simple pregunta de sí o no. Por ejemplo, si un modelo tiene una tasa de error del 10% en consultas binarias, los errores a nivel de oración podrían duplicarse al 20% o más a medida que las imprecisiones se acumulan en múltiples tokens.
Las alucinaciones están fundamentalmente limitadas por la capacidad del modelo para clasificar respuestas válidas versus no válidas, una tarea que resulta desafiante en diversos dominios del conocimiento. Incluso con datos de entrenamiento impecables, el mecanismo de predicción probabilística garantiza cierto nivel de falsedades inevitables. El artículo enfatiza que la escasez de información en los conjuntos de datos de entrenamiento exacerba esto. Los hechos que aparecen con poca frecuencia son más propensos a ser mal recordados o inventados.
Un ejemplo sorprendente son los cumpleaños de figuras notables. El análisis encontró que si el 20% de dichos cumpleaños aparecen solo una vez en los datos de capacitación, se proyecta que los LLM base cometan errores en al menos el 20% de las consultas relacionadas. Para ilustrarlo, los investigadores probaron modelos de última generación en el cumpleaños de Adam Kalai, uno de los coautores del artículo. El modelo DeepSeek-V3, en intentos separados, generó tres fechas tremendamente incorrectas: “03-07”, “15-06” y “01-01”. La fecha real cae en otoño, lo que pone de relieve cómo los modelos pueden afirmar con confianza detalles muy alejados de la realidad.
Para agravar el problema está el marco de evaluación utilizado en los puntos de referencia de IA. El estudio revisó diez puntos de referencia importantes, incluidos los de Google, OpenAI y las principales tablas de clasificación de IA. Nueve de ellos emplean sistemas de calificación binarios que otorgan cero puntos por expresiones de incertidumbre, como “No sé”. Esta configuración equipara las confesiones honestas de ignorancia con errores manifiestos, creando un incentivo perverso para que los modelos siempre adivinen en lugar de abstenerse.
Matemáticamente, los investigadores demuestran que bajo evaluación binaria, adivinar produce una puntuación esperada más alta que retener una respuesta, independientemente de la verdadera probabilidad de acierto. Si un modelo tiene aunque sea una mínima posibilidad (digamos, 1%) de tener razón, la recompensa potencial supera la penalización por abstenerse. Esta “epidemia” de penalización de la incertidumbre, como la describen los autores, perpetúa resultados excesivamente confiados y sofoca el progreso hacia una IA más confiable.
La solución propuesta por OpenAI implica integrar la estimación de confianza en el proceso de toma de decisiones del modelo. Antes de responder, la IA evaluaría su nivel de certeza y solo procedería si supera un umbral predefinido. Luego, los puntos de referencia se ajustarían para obtener una puntuación basada en esta confianza, como penalizar más los errores (por ejemplo, -3 puntos), recompensar las respuestas correctas (+1 punto) y permitir la abstención en los casos de baja confianza.
El marco matemático demuestra que unos umbrales adecuados alentarían a los modelos a expresar la incertidumbre de forma natural, reduciendo las alucinaciones. Sin embargo, la implementación práctica revela importantes inconvenientes. El documento estima que aplicar un umbral de confianza del 75% podría llevar a ChatGPT a responder “No sé” a aproximadamente el 30% de las consultas, basándose en lagunas objetivas en los datos de entrenamiento. Los usuarios, acostumbrados a respuestas instantáneas y autorizadas, pueden encontrar esto frustrante y cambiar a alternativas menos cautelosas.
Wei Xing establece un paralelo con su participación en un proyecto de monitoreo de la calidad del aire en Salt Lake City, Utah. Cuando el sistema señala incertidumbres (debido a condiciones climáticas adversas o a la calibración), la participación del usuario disminuye en comparación con las muestras de lecturas confiables, incluso si son inexactas. Esta analogía subraya una preferencia humana más amplia por la certeza sobre la precisión, lo que podría erosionar la adopción de la IA consciente de la incertidumbre en los entornos de los consumidores.
Más allá de la experiencia del usuario, las demandas computacionales plantean una barrera formidable. Cuantificar la incertidumbre requiere evaluar múltiples rutas de respuesta y estimar intervalos de confianza, un proceso que requiere muchos más recursos que la predicción simbólica estándar. Para los servicios que manejan millones de consultas diarias, esto podría multiplicar drásticamente los costos operativos. Incertidumbre establecida quaLos métodos de notificación, desarrollados durante décadas en campos como la estadística y el aprendizaje automático, son efectivos pero computacionalmente costosos.
Técnicas avanzadas como el aprendizaje activo, donde la IA plantea preguntas aclaratorias a los usuarios, podrían mejorar aún más la precisión, pero aumentar aún más los requisitos. Estos enfoques son factibles en ámbitos de alto riesgo donde los errores conllevan graves consecuencias. Por ejemplo, en la logística de la cadena de suministro, el comercio financiero o los diagnósticos médicos, el costo de una alucinación (por ejemplo, millones en pérdida de ingresos o daños al paciente) justifica la inversión en sistemas cautelosos y con gran cantidad de computación.
En el diseño de chips o en la gestión de infraestructura económica, la IA consciente de la incertidumbre se vuelve no sólo viable sino esencial. El documento señala que cuando los agentes de IA supervisan operaciones críticas, la economía cambia: el gasto de controles de confianza exhaustivos palidece frente a los riesgos de errores de exceso de confianza. Sin embargo, la IA de consumo, que domina las prioridades de desarrollo, opera bajo reglas diferentes. Los usuarios exigen respuestas rápidas y seguras a cualquier consulta, desde trivialidades hasta consejos.
Los puntos de referencia siguen favoreciendo las conjeturas, y la eficiencia del hardware (como la caída de los costos de energía por token o la mejora de las arquitecturas de chips) pueden eventualmente reducir las barreras. Sin embargo, en comparación con los modelos simplificados de adivinanzas actuales, el manejo de la incertidumbre siempre exigirá más potencia de procesamiento. El artículo expone inadvertidamente una desalineación en los incentivos comerciales: la velocidad y la confianza impulsan las ganancias en las aplicaciones de consumo, mientras que la precisión pasa a un segundo plano.
Las técnicas posteriores al entrenamiento, como el aprendizaje reforzado a partir de la retroalimentación humana (RLHF), han mitigado algunas alucinaciones pero no abordan las causas fundamentales. La investigación demuestra que incluso los modelos optimizados conservan estas inevitabilidades matemáticas. Hasta que los estándares de evaluación evolucionen para recompensar los matices y la economía computacional priorice la confiabilidad sobre la velocidad, las alucinaciones perdurarán como un sello distintivo de los LLM de los consumidores.
Esta revelación desafía la trayectoria de la industria de la IA. A medida que los modelos crecen y se vuelven más capaces, se intensifica la presión para equilibrar la innovación con la confiabilidad. El trabajo de OpenAI exige un cambio de paradigma, instando a los desarrolladores, creadores de evaluaciones comparativas y usuarios a valorar las respuestas calibradas. En los sectores de alto valor, la adopción parece inminente; para las herramientas cotidianas, sigue siendo una perspectiva lejana.
Los autores del artículo, incluidos investigadores de OpenAI, concluyen que sin una realineación de incentivos, la búsqueda de una IA impecable seguirá siendo difícil de alcanzar. Como señala Wei Xing, profesor asistente de la Facultad de Ciencias Físicas y Matemáticas de la Universidad de Sheffield, en el artículo republicado en The Conversation bajo una licencia Creative Commons, “los incentivos comerciales que impulsan el desarrollo de la IA del consumidor siguen fundamentalmente desalineados con la reducción de las alucinaciones”.
Este estudio no sólo diagnostica una falla persistente sino que también traza un camino a seguir, uno que exige compensaciones entre usabilidad, costo y veracidad. A medida que la IA se integre más profundamente en la vida diaria, abordar estas tensiones será crucial para el avance sostenible.








