Silicon Valley está haciendo apuestas sustanciales en los entornos de aprendizaje de refuerzo (RL) como una herramienta fundamental para avanzar en agentes de IA capaces de manejar autónomos de forma autónoma. Durante años, los ejecutivos de las principales compañías tecnológicas han promocionado el potencial de estos agentes para revolucionar la productividad al interactuar con aplicaciones en nombre de los usuarios. Sin embargo, los ejemplos actuales orientados al consumidor, como el agente ChatGPT de Openai y el cometa de Perplexity, revelan limitaciones significativas en su capacidad para ejecutar procesos de múltiples pasos de manera confiable. Esta brecha ha provocado un aumento en las técnicas innovadoras, con entornos RL que surgen como una solución prometedora. Estos terrenos de entrenamiento simulados imitan las interacciones de software del mundo real, lo que permite que los modelos de IA aprendan a través de prueba y error, al igual que cómo los conjuntos de datos etiquetados alimentaron la era anterior de los avances generativos de IA. Los entornos RL funcionan como simulaciones controladas donde los agentes de IA practican tareas en una configuración virtual, recibiendo recompensas o sanciones en función de su rendimiento. Imagine un espacio de trabajo digital que replica un navegador Chrome, donde un agente tiene la tarea de navegar por Amazon para comprar un par de calcetines. El éxito puede implicar seleccionar correctamente los artículos, completar el pago y evitar errores como comprar la cantidad incorrecta o atascarse en los menús. Como se describió un fundador en una entrevista reciente, construir estos entornos es similar a “crear un videojuego muy aburrido”. A diferencia de los conjuntos de datos estáticos, que proporcionan entradas y salidas fijas, los entornos RL deben anticipar y manejar acciones de agentes impredecibles, ofreciendo comentarios consistentes para guiar el aprendizaje. Esta complejidad exige un diseño robusto para garantizar que la simulación siga siendo útil incluso cuando los agentes se desvían de las rutas esperadas. La demanda de tales entornos se ha disparado entre los principales laboratorios de IA, incluidos OpenAI, Google Deepmind, Anthrope y Meta. Jennifer Li, socia general de Andreessen Horowitz, destacó en una entrevista con TechCrunch que “todos los grandes laboratorios de IA están construyendo entornos RL internos”. Sin embargo, la naturaleza intrincada del desarrollo ha llevado a estas organizaciones a buscar asociaciones con proveedores de terceros para entornos de alta calidad y herramientas de evaluación. Esta tendencia ha encendido una ola de inversión y emprendimiento, con startups y empresas establecidas que corren para capturar una parte de lo que podría convertirse en un mercado multimillonario. Según los informes de la información, el liderazgo de Anthrope incluso ha discutido la asignación de más de $ 1 mil millones a entornos RL en el próximo año, subrayando la prioridad estratégica de esta tecnología. Los precedentes históricos ilustran el papel fundamental de RL en el desarrollo de IA. En 2016, Openai presentó “RL Gyms”, los primeros marcos para agentes de entrenamiento en escenarios simulados. Ese mismo año, Alphago de Google Deepmind logró una victoria histórica al derrotar a un campeón mundial en el juego de GO, aprovechando a RL dentro de un entorno simulado para dominar la toma de decisiones estratégicas. Estos esfuerzos sentaron las bases, pero las aplicaciones de hoy marcan una evolución significativa. Los entornos RL modernos se dirigen a modelos grandes basados en transformadores diseñados para tareas de uso general en diversas herramientas de software, en contraste con los sistemas especializados de mundo cerrado como Alphago. Los investigadores ahora comienzan con modelos fundamentales más avanzados, pero la ambición de crear agentes ampliamente capaces introduce nuevos desafíos, como garantizar la confiabilidad en las interacciones abiertas. Los gigantes establecidos de marcas de datos están girando agresivamente para satisfacer esta demanda, aprovechando su infraestructura existente y las relaciones con los clientes. Según los informes, Surge, que generó $ 1.2 mil millones en ingresos el año pasado a partir de colaboraciones con laboratorios de inteligencia artificial como OpenAi, Google, Antropic y Meta, ha observado un “aumento significativo” en las solicitudes de entornos de RL, según el CEO Edwin Chen. En respuesta, la compañía ha establecido una organización interna dedicada para centrarse en su creación. Este movimiento posiciona la transición de la transición de la anotación de datos tradicional a las simulaciones dinámicas, capitalizando su historial comprobado en el apoyo a la investigación de IA fronteriza. Mercor, valorado en $ 10 mil millones, es otro jugador clave que enfatiza los entornos RL específicos de dominio adaptados a sectores como la codificación, la salud y el derecho. La startup ha asegurado asociaciones con Openai, Meta y Anthrope, y su CEO, Brendan Foody, enfatizó en una entrevista de TechCrunch que “pocos entienden cuán grande es realmente la oportunidad en los entornos RL”. El enfoque de Mercor implica elaborar simulaciones especializadas que aborden los desafíos de nicho, como navegar bases de datos legales o analizar registros médicos, potencialmente acelerando la adopción de IA en las industrias reguladas. Scale AI, una vez que el líder indiscutible en el etiquetado de datos con una valoración de $ 29 mil millones, se ha enfrentado a contratiempos recientes. La inversión de $ 14 mil millones de Meta en una empresa competitiva y la caza furtiva del ex CEO de Scale llevó a los perdidos contratos con Google y OpenAI, junto con la competencia interna dentro de Meta. Sin embargo, la escala se está adaptando al expandirse en entornos RL. Chetan Rane, jefe de producto de Scale para agentes y entornos RL, señaló: “Esto es solo la naturaleza del negocio [Scale AI] está en la escala ha demostrado su capacidad para adaptarse rápidamente. Hicimos esto en los primeros días de los vehículos autónomos, nuestra primera unidad de negocios. Cuando salió ChatGPT, escala AI adaptada a eso. Y ahora, una vez más, nos estamos adaptando a nuevos espacios fronterizos como agentes y entornos “. Este pivote refleja la historia de reinvención de la escala, desde autos autónomos hasta el auge de chatbot, posicionándolo para reclamar relevancia en la era del agente. En medio de esta consolidación, una cohorte de inicio de la descarga de animado está alterando el paisaje con las innovaciones enfocadas. Visión para “automatizar todos los trabajos” comenzando con los entornos RL para los agentes de codificación de IA. La colaboración con el desarrollo de RL, aunque ambas partes se negaron a comentar. Ventures, la startup lanzó un Hub de RL Entorness el mes pasado. Parte de lo que estamos haciendo es tratar de construir una buena infraestructura de código abierto a su alrededor. The service we sell is compute, so it is a convenient onramp to using GPUs, but we’re thinking of this more in the long term.” By facilitating GPU access, Prime Intellect not only fosters community-driven progress but also taps into the growing need for scalable hardware solutions in AI training. Investors view this burgeoning sector through the lens of past successes, hoping a standout player will emerge as the “Scale AI for entornos “: una fuerza dominante similar a cómo la escala impulsó la onda de IA generativa. La afluencia de fondos refleja el optimismo de que los entornos RL podrían desbloquear el próximo salto en la IA de agente, permitiendo que los sistemas se integren sin problemas con las herramientas, naveguen la web y se ejecutan flujos de trabajo de la empresa. En RL, las nuevas empresas en un podcast reciente. Los avances se derivaron de las inversiones en RL combinadas con la computa de tiempo de prueba, ya que los creadores de O1 compartieron previamente con TechCrunch, apostando por su escalabilidad con datos y recursos adicionales. Enforzador: estas simulaciones podrían impulsar el progreso sostenido hacia los agentes de IA de uso general. Qué difícil es escalar entornos. Incluso el mejor disponible públicamente [RL environments] Por lo general, no funciona sin una modificación seria. “La escala requiere no solo más entornos, sino también refinamientos para mitigar tales problemas, asegurando que las simulaciones sigan siendo fieles a aplicaciones reales. Incluso los puntos de referencia públicos a menudo exigen ataques extensos, destacando la brecha entre las prototipo y las herramientas de producción. Dicho: “Soy optimista en los entornos y las interacciones agentes, pero soy bajista en el aprendizaje de refuerzo específicamente”.
Source: Escala AI se expande en entornos RL para agentes de IA





