Conozca las evaluaciones de OpenAI. Junto con el lanzamiento de GPT-4, OpenAI también lanzó un marco de software de código abierto para probar la eficacia de sus modelos de IA.
El equipo de OpenAI ha anunciado un nuevo conjunto de herramientas que denominan Evals y que permitirán a cualquier persona informar problemas con los modelos de la empresa y cambios de liderazgo.
estamos abriendo OpenAI Evals, nuestro marco para la evaluación automatizada del rendimiento del modelo de IA, para permitir que cualquier persona ayude a mejorar nuestros modelos.
— Sam Altman (@sama) 14 de marzo de 2023
¿Qué es OpenAI Evals?
En una publicación de blog, OpenAI describe esta metodología como un “enfoque de colaboración abierta” para validar modelos.
“Usamos Evals para guiar el desarrollo de nuestros modelos (tanto para identificar deficiencias como para prevenir regresiones), y nuestros usuarios pueden aplicarlo para realizar un seguimiento del rendimiento en todas las versiones del modelo y la evolución de las integraciones de productos”, escribe OpenAI. “Esperamos que Evals se convierta en un vehículo para compartir puntos de referencia de crowdsourcing, que represente un conjunto máximo de modos de falla y tareas difíciles”.
-OpenAI
El objetivo del proyecto Evals de OpenAI es construir y ejecutar puntos de referencia que puedan usarse para evaluar la eficacia de modelos como GPT-4 a través de un análisis cuidadoso de su rendimiento. Con Evals, los programadores pueden generar preguntas utilizando conjuntos de datos, evaluar la precisión de las respuestas de un modelo OpenAI y evaluar la eficacia de varios conjuntos de datos y modelos.
Evals no solo es compatible con versiones anteriores de varios puntos de referencia de IA conocidos, sino que también le permite crear nuevas clases para usar su propia lógica de evaluación. Para servir como punto de referencia, OpenAI diseñó una evaluación de acertijos lógicos con 10 ejemplos de problemas con los que lucha GPT-4.
Todo es trabajo voluntario, lo cual es un fastidio enorme. No obstante, OpenAI tiene la intención de brindar acceso a GPT-4 a las personas que brindan puntos de referencia de “alta calidad” para alentar el uso de Evals.
“Creemos que Evals será una parte integral del proceso para usar y construir sobre nuestros modelos, y agradecemos las contribuciones directas, las preguntas y los comentarios”.
-OpenAI
OpenAI, que anunció que dejará de utilizar los datos de los consumidores para entrenar sus modelos de forma predeterminada, se une a las filas de los que recurrieron al crowdsourcing para fortalecer los modelos de IA utilizando Evals.
¿Está usted en GPT-4? Mira estos:
- Comparación de avisos de ChatGPT
- GPT-4 frente a ChatGPT





