Los investigadores de Apple han sido coautores de un nuevo estudio que demuestra mejoras significativas de rendimiento en un modelo de lenguaje grande de código abierto (LLM) al emplear una técnica de productividad simple: instruir a la LLM a verificar su propio trabajo utilizando listas de verificación.
El estudio profundiza en el reino del refinamiento de LLM, que generalmente implica un proceso posterior a la capacitación conocido como aprendizaje de refuerzo de la retroalimentación humana (RLHF). RLHF se basa en los etiquetadores humanos que proporcionan retroalimentación, como los pulgares hacia arriba o el pulgar hacia abajo, para evaluar las respuestas del modelo. Esta retroalimentación ayuda a la LLM a aprender qué respuestas se consideran más deseables, mejorando así su utilidad general.
El campo más amplio de “alineación” juega un papel crucial en esta fase posterior a la capacitación, centrándose en garantizar que los LLM se comporten de manera útil y segura. Un modelo desalineado podría aprender a manipular la retroalimentación humana generando salidas que parecen correctas superficialmente pero no pueden abordar la tarea subyacente de manera efectiva.
Si bien existen varios métodos para mejorar la confiabilidad y la alineación de un modelo a lo largo de las etapas previas a la capacitación, entrenamiento y posterior a la capacitación, este estudio se concentra específicamente en RLHF.
Titulada “Las listas de verificación son mejores que los modelos de recompensa para alinear los modelos de idiomas”, el estudio de Apple presenta un esquema de aprendizaje de refuerzo basado en la lista de verificación llamado aprendizaje de refuerzo de la retroalimentación de la lista de verificación (RLCF). Este enfoque evalúa las respuestas en una escala de 0 a 100, en función de qué tan bien satisfacen cada elemento en la lista de verificación. Los resultados iniciales indican resultados prometedores.
Según los investigadores, “Comparamos RLCF con otros métodos de alineación aplicados a una instrucción sólida que sigue al modelo (QWEN2.5-7B-Instructo) en cinco puntos de referencia ampliamente estudiados: RLCF es el único método para mejorar el rendimiento en cada punto de referencia, incluido un tasa de contactos de 4 puntos en la tasa de satisfacción dura, el aumento de la velocidad de los resultados de los 6 puntos en el momento de la tasa de control de la tasa de referencia de los 3 puntos. La retroalimentación como herramienta clave para mejorar el soporte de los modelos de lenguaje de consultas que expresan una multitud de necesidades “.
Los hallazgos del estudio tienen un significado particular para los asistentes con IA, que están listos para convertirse en la interfaz principal a través de la cual millones de usuarios interactúan con sus dispositivos. Los investigadores enfatizan que “los modelos de idiomas deben seguir las instrucciones del usuario para ser útiles. Como el público en general integra a los asistentes basados en modelos de lenguaje en su finalización de tareas diarias, existe la expectativa de que los modelos de idiomas pueden seguir fielmente las solicitudes de los usuarios. A medida que los usuarios desarrollan más confianza en la capacidad de los modelos para cumplir con las solicitudes complejas, estos modelos se les dan más instrucciones ricas y múltiples que requieren atención cuidadosa a las especificaciones”.
Un aspecto clave del estudio radica en el método utilizado para generar las listas de verificación y asignar pesos de importancia a cada elemento. Este proceso es facilitado por un LLM. Sobre la base de investigaciones anteriores, los investigadores de Apple generaron “listas de verificación para 130,000 instrucciones (…) para crear un nuevo conjunto de datos, WildCheckLists. Para generar respuestas candidatas para nuestro método, usamos QWEN2.5-0.5B, Qwen2.5-1.5b, Qwen2.5-3b y QWen2.5-7b. QWEN2.5-72B-INSSTRUCT ISLISTCUTCUT ISLISTA ((…)”.
Esencialmente, los investigadores aumentan cada instrucción del usuario con una lista de verificación de requisitos específicos de sí/NO. Por ejemplo, un elemento de la lista de verificación podría preguntar: “¿Esto se traduce en español?” Un modelo de maestro más grande luego obtiene respuestas candidatas contra cada elemento de la lista de verificación, y estos puntajes ponderados sirven como señal de recompensa para ajustar el modelo de estudiante.
Los resultados del estudio demuestran que con los sistemas apropiados para crear listas de verificación optimizadas para cada aviso, los investigadores observaron ganancias de hasta 8.2% en uno de los puntos de referencia utilizados para probar el método. Además, la solución superó a los métodos alternativos en varios otros puntos de referencia.
Los investigadores aclaran que su estudio se centró en “seguimiento de instrucción compleja” y que RLCF puede no ser la técnica de aprendizaje de refuerzo más adecuada para todos los casos de uso. También reconocen que su método utiliza un modelo más poderoso para evaluar y sintonizar un modelo más pequeño, lo que representa una limitación significativa. Lo más importante, afirman que “RLCF mejora la instrucción compleja después, pero no está diseñada para la alineación de seguridad”.
A pesar de estas limitaciones, el estudio presenta un enfoque novedoso y directo para mejorar la confiabilidad en la interacción entre humanos y asistentes basados en LLM. Esto es particularmente crucial ya que estos asistentes adquieren cada vez más capacidades de agente, donde la instrucción y la alineación se vuelven primordiales.
El estudio subraya el potencial de las técnicas de productividad simples, como las listas de verificación, para mejorar significativamente el rendimiento y la confiabilidad de los LLM, particularmente en el contexto de la instrucción compleja y los asistentes con IA.
Source: Apple mejora el rendimiento de LLM usando listas de verificación





