Un estudio sobre el modelo ChatGPT-5 de OpenAI determinó que produce respuestas incorrectas en aproximadamente el 25% de los casos, según un artículo de Tom’s Guide. Si bien esto resalta una tasa de error persistente, el modelo demuestra mejoras significativas en precisión en comparación con su predecesor, GPT-4.
Específicamente, ChatGPT-5 comete aproximadamente un 45% menos de errores fácticos y genera seis veces menos respuestas alucinadas o completamente inventadas que GPT-4. A pesar de este progreso, el estudio informa que el modelo todavía sufre de exceso de confianza y puede presentar con seguridad información incorrecta, una característica a menudo denominada alucinación.
El rendimiento y la precisión del modelo varían según la tarea específica. Por ejemplo, obtuvo una puntuación del 94,6 % en la prueba de matemáticas AIME de 2025 y tuvo una tasa de éxito del 74,9 % en un conjunto de tareas de codificación del mundo real. En el punto de referencia MMLU Pro, más desafiante, una prueba académica que cubre ciencias, matemáticas e historia, ChatGPT-5 logró una precisión de aproximadamente el 87%. Sin embargo, todavía comete errores en conocimientos generales y preguntas de razonamiento complejas.
El estudio atribuye estos errores a varios factores subyacentes. Estos incluyen las limitaciones del modelo para comprender completamente las preguntas matizadas, el uso de datos de entrenamiento que pueden estar desactualizados o incompletos, y su diseño fundamental basado en la predicción de patrones probabilísticos. En ocasiones, este mecanismo puede generar respuestas que parecen plausibles pero que en los hechos son inexactas.
El artículo recomienda a los usuarios que verifiquen cualquier información crítica obtenida de ChatGPT-5. Dado que el modelo no es infalible, esta precaución es particularmente importante para consultas relacionadas con asuntos profesionales, académicos o de salud, incluso con las mejoras documentadas en la confiabilidad del modelo.








