Un estudio reciente en coautoría de los investigadores de Apple demuestra que los modelos de lenguaje grande (LLM) pueden mejorar significativamente su rendimiento al emplear una técnica de productividad simple: verificar su trabajo.
El estudio profundiza en la calidad de refinación de LLM a través del entrenamiento posterior, típicamente logrado a través del aprendizaje de refuerzo de la retroalimentación humana (RLHF). RLHF involucra a los etiquetadores humanos que evalúan las respuestas del modelo, proporcionando un “pulgar hacia arriba” para respuestas positivas y un “pulgar hacia abajo” para las negativas. Este bucle de retroalimentación ayuda al modelo a aprender a generar resultados que tienen más probabilidades de recibir comentarios positivos, mejorando su utilidad general.
Esta fase posterior al entrenamiento está estrechamente vinculada al campo más amplio de “alineación”, que se centra en el desarrollo de métodos para garantizar que los LLM sean útiles y seguros. Un modelo desalineado podría aprender a manipular la retroalimentación humana generando resultados superficialmente correctos pero, en última instancia, incorrectos.
Si bien existen varios métodos para mejorar la confiabilidad y la alineación del modelo durante la capacitación, el entrenamiento y el post-entrenamiento, este estudio se concentra en RLHF. El estudio de Apple, titulado “Las listas de verificación son mejores que los modelos de recompensa para alinear los modelos de idiomas”, presenta un esquema de aprendizaje de refuerzo basado en la lista de verificación llamado aprendizaje de refuerzo de la retroalimentación de la lista de verificación (RLCF).
RLCF evalúa las respuestas en una escala de 0 a 100 en función de qué tan bien satisfacen cada elemento en una lista de verificación. Los resultados iniciales son prometedores. Según los investigadores, “Comparamos RLCF con otros métodos de alineación aplicados a una instrucción sólida que sigue al modelo (QWEN2.5-7B-Instructo) en cinco puntos de referencia ampliamente estudiados: RLCF es el único método para mejorar el rendimiento en cada punto de referencia, incluido un tasa de contactos de 4 puntos en la tasa de satisfacción dura, el aumento de la velocidad de los resultados de los 6 puntos en el momento de la tasa de control de la tasa de referencia de los 3 puntos. La retroalimentación como herramienta clave para mejorar el soporte de los modelos de lenguaje de consultas que expresan una multitud de necesidades “.
Esto es particularmente relevante para los asistentes con IA, que se están convirtiendo en la interfaz estándar para los usuarios que interactúan con sus dispositivos. Los investigadores afirman que “los modelos de idiomas deben seguir las instrucciones del usuario para ser útiles. Como el público en general integra a los asistentes basados en modelos de lenguaje en su finalización de tareas diarias, existe la expectativa de que los modelos de idiomas pueden seguir fielmente las solicitudes de los usuarios. A medida que los usuarios desarrollan más confianza en la capacidad de los modelos para cumplir con las solicitudes complejas, estos modelos se les dan más instrucciones ricas y múltiples que requieren atención cuidadosa a las especificaciones”.
Un aspecto clave del estudio es el proceso de generar listas de verificación y asignar pesos de importancia a cada elemento. Esto se logra usando un LLM. Sobre la base de investigaciones anteriores, los investigadores de Apple generaron listas de verificación para 130,000 instrucciones, creando un nuevo conjunto de datos llamado WildChecklists. “Para generar respuestas candidatas para nuestro método, utilizamos Qwen2.5-0.5b, Qwen2.5-1.5b, Qwen2.5-3b y Qwen2.5-7b. Qwen2.5-72b-Instructo es el modelo de generador de lista de verificación (…)”.
Esencialmente, cada instrucción del usuario se complementa automáticamente con una lista de verificación de requisitos concretos de sí/no (por ejemplo, “¿Esto se traduce en español?”). Un modelo de maestro más grande luego obtiene respuestas candidatas contra cada elemento de la lista de verificación, y estos puntajes ponderados se convierten en la señal de recompensa utilizada para ajustar el modelo de estudiante.
Los investigadores observaron una ganancia de hasta 8.2% en uno de los puntos de referencia al probar su método, con los sistemas adecuados para crear la mejor lista de verificación posible para cada mensaje. Además, esta solución superó a los métodos alternativos en varios otros puntos de referencia.
Los investigadores enfatizan que su estudio se centró en la “instrucción compleja seguida” y que RLCF puede no ser la técnica de aprendizaje de refuerzo óptima para todos los casos de uso. También reconocen que su método se basa en un modelo más poderoso para evaluar y sintonizar un modelo más pequeño, lo que representa una limitación significativa. De manera crucial, afirman que “RLCF mejora la instrucción compleja después, pero no está diseñada para la alineación de seguridad”.
A pesar de estas limitaciones, el estudio presenta un enfoque novedoso y directo para mejorar la confiabilidad en las interacciones Human-LLM, que se está volviendo cada vez más importante a medida que estos asistentes obtienen capacidades de agente, donde la instrucción y la alineación son primordiales.
En resumen, el estudio de Apple presenta RLCF, un esquema de aprendizaje de refuerzo basado en la lista de verificación que mejora significativamente el rendimiento de LLM en la instrucción compleja siguiendo las tareas. Al instruir a los LLM a verificar su propio trabajo con listas de verificación predefinidas, el método RLCF mejora la confiabilidad y precisión de las respuestas de LLM, particularmente en escenarios que involucran instrucciones de varios pasos y diversas necesidades de usuarios. Si bien no está diseñado para la alineación de seguridad, RLCF ofrece una herramienta valiosa para mejorar la utilidad y confiabilidad general de los asistentes basados en LLM.
Source: Apple usa RLCF para mejorar la instrucción de LLM siguiendo





