OpenAI lanzó GPT-5.4 el jueves, presentando una versión estándar junto con las variantes GPT-5.4 Thinking y GPT-5.4 Pro. La compañía describió el modelo como su modelo de frontera más capaz y eficiente para el trabajo profesional.
La versión API admite ventanas de contexto de hasta 1 millón de tokens, la mayor disponible en OpenAI. El modelo también demuestra una eficiencia de token mejorada, resolviendo problemas con una cantidad significativamente menor de tokens que su predecesor.
GPT-5.4 logró puntuaciones récord en los puntos de referencia de uso de computadoras OSWorld-Verified y WebArena Verified. También obtuvo una puntuación del 83% en la prueba GDPval de OpenAI para tareas de trabajo de conocimiento.
El modelo lideró el índice de referencia APEX-Agents de Mercor, que evalúa las habilidades profesionales en derecho y finanzas, según el director ejecutivo de Mercor, Brendan Foody. Foody afirmó que GPT-5.4 se destaca en la creación de resultados a largo plazo, como presentaciones de diapositivas y modelos financieros, y ofrece el máximo rendimiento más rápido y a menor costo que la competencia.
OpenAI dijo que el modelo tiene un 33% menos de probabilidades de cometer errores en reclamos individuales en comparación con GPT 5.2. Las respuestas generales tienen un 18% menos de probabilidades de contener errores.
La empresa introdujo Tool Search para gestionar las llamadas de herramientas en la API. El sistema busca definiciones de herramientas según sea necesario, lo que reduce el uso de tokens y el costo en sistemas con muchas herramientas.
OpenAI agregó una nueva evaluación de seguridad para probar el monitoreo de la cadena de pensamiento. La evaluación mostró que el engaño es menos probable en la versión GPT-5.4 Thinking, lo que sugiere que el modelo carece de la capacidad de ocultar su razonamiento.








