Un estudio sobre el modelo CHATGPT-5 de OpenAI determinó que produce respuestas incorrectas en aproximadamente el 25% de los casos, según un artículo de la Guía de Tom. Si bien esto resalta una tasa de error persistente, el modelo demuestra mejoras significativas en la precisión en comparación con su predecesor, GPT-4. Específicamente, ChatGPT-5 comete aproximadamente un 45% menos errores objetivos y genera seis veces menos respuestas alucinadas o completamente inventadas que GPT-4. A pesar de este progreso, el estudio informa que el modelo aún sufre de exceso de confianza y puede presentar con confianza información incorrecta, una característica a menudo conocida como alucinación. El rendimiento y la precisión del modelo varían según la tarea específica. Por ejemplo, obtuvo un 94.6% en la prueba de matemáticas AIME 2025 y tuvo una tasa de éxito del 74.9% en un conjunto de tareas de codificación del mundo real. En el punto de referencia MMLU Pro más desafiante, una prueba académica que cubre las ciencias, las matemáticas y la historia, ChatGPT-5 logró una precisión de aproximadamente el 87%. Sin embargo, todavía comete errores en el conocimiento general y las preguntas de razonamiento complejas. El estudio atribuye estos errores a varios factores subyacentes. Estos incluyen las limitaciones del modelo para comprender completamente las preguntas matizadas, utilizando datos de capacitación que pueden estar desactualizados o incompletos, y su diseño fundamental basado en la predicción probabilística de patrones. Este mecanismo puede generar ocasionalmente respuestas que parecen plausibles pero que son de hecho inexactos. El artículo aconseja a los usuarios que verifiquen cualquier información crítica obtenida de ChatGPT-5. Dado que el modelo no es infalible, esta precaución es particularmente importante para las consultas relacionadas con asuntos profesionales, académicos o de salud, incluso con las mejoras documentadas del modelo en la confiabilidad.
Source: Operai ChatGPT-5 muestra una tasa de error del 25% en el estudio





