Una nueva investigación de los afiliados de MIT Sloan indica que las mejoras en el rendimiento generativo de inteligencia artificial (IA) no son únicamente atribuibles a los avances en modelos de idiomas grandes (LLM). Un experimento a gran escala reveló que solo la mitad de las ganancias de rendimiento observadas después de la transición a un modelo de IA más avanzado provino del modelo en sí. La mitad restante se debió a que los usuarios adaptaban sus indicaciones, las instrucciones escritas proporcionadas a la IA, para aprovechar el nuevo sistema de manera efectiva.
Este hallazgo subraya una realidad crucial para las empresas: invertir en nuevas herramientas de IA no generará su valor anticipado a menos que los empleados también refinen su uso. El estudio sugiere que la solicitud es una habilidad aprendible que los individuos pueden mejorar rápidamente, incluso sin instrucción formal.
David Holtz, SM ’18, PhD ’21, profesor asistente en la Universidad de Columbia y afiliada de investigación en la Iniciativa MIT sobre la economía digital, y un coautor del estudio, declaró: “Las personas a menudo asumen que los mejores resultados provienen principalmente de modelos mejores. El hecho de que casi la mitad de la mejora provenga del comportamiento del usuario realmente desafía esa creencia”.
El experimento involucró a casi 1.900 participantes que fueron asignados al azar a una de las tres versiones del sistema de generación de imágenes Dall-E de OpenAI: Dall-E 2, el Dall-E 3 más avanzado o Dall-E 3 con las indicaciones de los usuarios reescritas automáticamente por el GPT-4 LLM sin su conocimiento. Los participantes tuvieron la tarea de recrear una imagen de referencia, como una foto, diseño gráfico o obra de arte, escribiendo instrucciones en la IA. Tuvieron 25 minutos para presentar al menos 10 indicaciones y fueron incentivados con un pago de bonificación para el 20% superior de los artistas, alentándolos a probar y refinar sus instrucciones.
Los investigadores informaron varios hallazgos clave:
- Los participantes que usan la versión de referencia de Dall-E 3 produjeron imágenes que eran más similares a la imagen objetivo en comparación con las generadas por los usuarios de Dall-E 2.
- Los participantes que utilizan la línea de base Dall-E 3 escribieron indicaciones que fueron 24% más largas que las de los usuarios de Dall-E 2. Estas indicaciones también exhibieron una mayor similitud entre sí y contenían una mayor proporción de palabras descriptivas.
- Aproximadamente la mitad de la mejora en la similitud de imagen se atribuyó al modelo mejorado, mientras que la otra mitad resultó de usuarios que ajustaban sus indicaciones para capitalizar las capacidades de los modelos mejorados.
Si bien este estudio se centró en la generación de imágenes, los investigadores creen que es probable que el mismo patrón se aplique a otras tareas, incluida la escritura y la codificación.
La investigación demostró que la capacidad de adaptar las indicaciones con el tiempo no era exclusiva para los usuarios expertos en tecnología. Holtz comentó: “La gente a menudo piensa que debe ser un ingeniero de software para provocar bien y beneficiarse de la IA. Pero nuestros participantes provenían de una amplia gama de empleos, niveles de educación y grupos de edad, e incluso aquellos sin antecedentes técnicos pudieron aprovechar al máximo las capacidades del nuevo modelo”.
Los datos sugieren que la solicitud efectiva se trata más de una comunicación clara que la codificación. Holtz señaló: “Los mejores promocores no eran ingenieros de software. Eran personas que sabían cómo expresar ideas claramente en el lenguaje cotidiano, no necesariamente en el código”.
Esta accesibilidad también puede contribuir a reducir las disparidades de rendimiento entre los usuarios con diferentes niveles de habilidad y experiencia. Eaman Jahani, PhD ’22, profesor asistente de la Universidad de Maryland y miembro digital en la Iniciativa MIT sobre la economía digital, y coautor del estudio, observó que la IA generativa tiene el potencial de reducir las brechas de rendimiento entre los usuarios. “Personas que comienzan en el extremo inferior del [performance] La escala se benefició más, lo que significa que las diferencias en los resultados se hicieron más pequeñas “, dijo Jahani.” Los avances del modelo realmente pueden ayudar a reducir la desigualdad en la producción “.
Jahani aclaró que los hallazgos del equipo son aplicables a tareas con resultados claros y medibles y un límite superior identificable para un buen resultado. Señaló que aún no está claro si el mismo patrón se mantendría para tareas más abiertas sin una sola respuesta correcta y con pagos potencialmente significativos, como generar nuevas ideas transformadoras.
Uno de los hallazgos más inesperados fue que la reescritura de la IA generativa condujo a una disminución significativa en el rendimiento. El grupo que usó Dall-E 3 con IA generativo que reescribe automáticamente sus indicaciones experimentó una degradación del 58% en el rendimiento en comparación con el grupo basal Dall-E 3. Los investigadores encontraron que las reescrituras automáticas frecuentemente introdujeron detalles extraños o alteraron el significado previsto de la entrada del usuario, lo que hace que la IA produzca una imagen incorrecta.
Holtz explicó: “[Automatic prompt rewriting] Simplemente no funciona bien para una tarea como esta, donde el objetivo es igualar una imagen objetivo lo más cerca posible. Más importante aún, muestra cómo los sistemas de IA pueden descomponerse cuando los diseñadores hacen suposiciones sobre cómo las personas los usarán. Si codifica las instrucciones ocultas en la herramienta, pueden entrar en conflicto fácilmente con lo que el usuario realmente está tratando de hacer “.
Las implicaciones del estudio para las empresas son claras: más allá de seleccionar el modelo de IA “correcto”, los líderes deben priorizar la habilitación de aprendizaje y experimentación efectivos de los usuarios. Jahani enfatizó que la solicitud no es una habilidad plug-and-play. “Las empresas deben invertir continuamente en sus recursos humanos”, dijo. “La gente necesita estar atrapada con estas tecnologías y saber cómo usarlas bien”.
Para maximizar los beneficios de la IA generativa, los investigadores ofrecen varias prioridades clave para los líderes empresariales con el objetivo de mejorar la efectividad del sistema de IA en entornos del mundo real:
- Invierte en entrenamiento y experimentación: Las actualizaciones técnicas por sí solas son insuficientes. Proporcionar a los empleados el tiempo y el apoyo para refinar sus interacciones con los sistemas de IA es crucial para realizar ganancias de rendimiento completa.
- Diseño para la iteración: Las interfaces de usuario que fomentan las pruebas, la revisión y el aprendizaje, y muestran claramente los resultados, contribuyen a mejores resultados con el tiempo.
- Tener cuidado con la automatización: Si bien la reescritura rápida automatizada puede parecer conveniente, puede obstaculizar el rendimiento en lugar de mejorarlo si oscurece o anula la intención del usuario.
El documento fue coautor de los estudiantes de MIT Sloan PhD Benjamin S. Manning, SM ’24; Hong-yi Tuye, SM ’23; y Mohammed Alsobay, ’16, SM ’24; así como al estudiante de doctorado de la Universidad de Stanford, Joe Zhang, el científico social de Microsoft Computational Siddharth Suri y el profesor asistente de Chipre de Chipre Christos Nicolaides, SM ’11, PhD ’14.
Source: Cuentas de calidad rápida para la mitad de las ganancias de rendimiento de IA





