Silicon Valley está haciendo apuestas sustanciales en entornos de aprendizaje por refuerzo (RL) como una herramienta fundamental para el avance de agentes de IA capaces de manejar de forma autónoma tareas de software complejas. Durante años, los ejecutivos de las principales empresas tecnológicas han promocionado el potencial de estos agentes para revolucionar la productividad al interactuar con aplicaciones en nombre de los usuarios. Sin embargo, los ejemplos actuales de cara al consumidor, como el agente ChatGPT de OpenAI y Comet de Perplexity, revelan limitaciones significativas en su capacidad para ejecutar procesos de varios pasos de manera confiable. Esta brecha ha estimulado un aumento en las técnicas innovadoras, y los entornos RL emergen como una solución prometedora. Estos campos de entrenamiento simulados imitan las interacciones de software del mundo real, lo que permite que los modelos de IA aprendan mediante prueba y error, de forma muy similar a cómo los conjuntos de datos etiquetados impulsaron la era anterior de avances en la IA generativa.

Los entornos RL funcionan como simulaciones controladas donde los agentes de IA practican tareas en un entorno virtual, recibiendo recompensas o sanciones en función de su desempeño. Imagine un espacio de trabajo digital que replica un navegador Chrome, donde un agente tiene la tarea de navegar por Amazon para comprar un par de calcetines. El éxito puede implicar seleccionar correctamente los artículos, completar el proceso de pago y evitar errores como comprar la cantidad incorrecta o quedarse atascado en los menús. Como describió un fundador en una entrevista reciente, construir estos entornos es similar a “crear un videojuego muy aburrido”. A diferencia de los conjuntos de datos estáticos, que proporcionan entradas y salidas fijas, los entornos de RL deben anticipar y manejar acciones impredecibles de los agentes, brindando retroalimentación consistente para guiar el aprendizaje. Esta complejidad exige un diseño sólido para garantizar que la simulación siga siendo útil incluso cuando los agentes se desvían de los caminos esperados.

La demanda de estos entornos se ha disparado entre los principales laboratorios de IA, incluidos OpenAI, Google DeepMind, Anthropic y Meta. Jennifer Li, socia general de Andreessen Horowitz, destacó en una entrevista con TechCrunch que “todos los grandes laboratorios de IA están construyendo entornos de realidad virtual internamente”. Sin embargo, la naturaleza compleja del desarrollo ha llevado a estas organizaciones a buscar asociaciones con proveedores externos para entornos y herramientas de evaluación de alta calidad. Esta tendencia ha desencadenado una ola de inversión y emprendimiento, con nuevas empresas y empresas establecidas compitiendo para capturar una parte de lo que podría convertirse en un mercado multimillonario. Según informes de The Information, el liderazgo de Anthropic incluso ha discutido la asignación de más de mil millones de dólares a entornos RL durante el próximo año, lo que subraya la prioridad estratégica de esta tecnología.

Los precedentes históricos ilustran el papel fundamental de la RL en el desarrollo de la IA. En 2016, OpenAI presentó “RL Gyms”, los primeros marcos para capacitar agentes en escenarios simulados. Ese mismo año, AlphaGo de Google DeepMind logró una victoria histórica al derrotar a un campeón mundial en el juego de Go, aprovechando la realidad virtual dentro de un entorno simulado para dominar la toma de decisiones estratégicas. Estos esfuerzos sentaron las bases, pero las aplicaciones actuales marcan una evolución significativa. Los entornos RL modernos se centran en grandes modelos basados ​​en transformadores diseñados para tareas de uso general a través de diversas herramientas de software, en contraste con los sistemas especializados de mundo cerrado como AlphaGo. Los investigadores ahora comienzan con modelos fundamentales más avanzados, pero la ambición de crear agentes con capacidades amplias introduce nuevos desafíos, como garantizar la confiabilidad en interacciones abiertas.

  MiniMax M2.7 coincide con los principales puntos de referencia de codificación en las pruebas

Los gigantes establecidos del etiquetado de datos están girando agresivamente para satisfacer esta demanda, aprovechando su infraestructura existente y sus relaciones con los clientes. Surge, que supuestamente generó 1.200 millones de dólares en ingresos el año pasado gracias a colaboraciones con laboratorios de inteligencia artificial como OpenAI, Google, Anthropic y Meta, ha observado un “aumento significativo” en las solicitudes de entornos RL, según el director ejecutivo Edwin Chen. En respuesta, la empresa ha establecido una organización interna dedicada a centrarse en su creación. Este movimiento posiciona a Surge para la transición de la anotación de datos tradicional a simulaciones dinámicas, aprovechando su trayectoria comprobada en el apoyo a la investigación de vanguardia en IA.

Mercor, valorado en 10 mil millones de dólares, es otro actor clave que enfatiza entornos de RL de dominios específicos diseñados para sectores como la codificación, la atención médica y el derecho. La startup ha conseguido asociaciones con OpenAI, Meta y Anthropic, y su director ejecutivo, Brendan Foody, enfatizó en una entrevista de TechCrunch que “pocos entienden cuán grande es realmente la oportunidad en torno a los entornos RL”. El enfoque de Mercor implica la elaboración de simulaciones especializadas que aborden desafíos específicos, como navegar por bases de datos legales o analizar registros médicos, lo que podría acelerar la adopción de la IA en industrias reguladas.

Scale AI, que alguna vez fue el líder indiscutible en etiquetado de datos con una valoración de 29 mil millones de dólares, se ha enfrentado a reveses recientes. La inversión de $14 mil millones de Meta en una empresa competidora y la pLa persecución del ex director ejecutivo de Scale provocó la pérdida de contratos con Google y OpenAI, junto con la competencia interna dentro de Meta. Sin embargo, Scale se está adaptando expandiéndose a entornos RL. Chetan Rane, jefe de producto de Scale para agentes y entornos de RL, señaló: “Esta es simplemente la naturaleza del negocio en el que se encuentra [Scale AI]. Scale ha demostrado su capacidad para adaptarse rápidamente. Hicimos esto en los primeros días de los vehículos autónomos, nuestra primera unidad de negocios. Cuando salió ChatGPT, Scale AI se adaptó a eso. Y ahora, una vez más, nos estamos adaptando a nuevos espacios fronterizos como agentes y entornos”. Este giro refleja la historia de reinvención de Scale, desde los autos sin conductor hasta el auge de los chatbots, posicionándolo para recuperar relevancia en la era de los agentes.

  Google integra Nano Banana AI en la búsqueda, NotebookLM

En medio de esta consolidación, un grupo de ágiles startups está revolucionando el panorama con innovaciones enfocadas. Mechanize Work, fundada hace aproximadamente seis meses, encarna una visión ambiciosa de “automatizar todos los trabajos” comenzando con entornos RL para agentes de codificación de IA. El cofundador Matthew Barnett explicó que la empresa da prioridad a unos pocos entornos selectos de alta fidelidad sobre el enfoque basado en el volumen de las empresas más grandes. Para atraer a los mejores talentos, Mechanize Work ofrece a los ingenieros de software salarios de hasta 500.000 dólares, sustancialmente más altos que las tarifas de los contratistas de competidores como Scale o Surge. Fuentes familiarizadas con el asunto indican que Mechanize Work ya está colaborando con Anthropic en el desarrollo de RL, aunque ambas partes declinaron hacer comentarios. Esta tracción inicial sugiere que la estrategia de calidad sobre cantidad de la startup podría crear un nicho en el suministro de herramientas de capacitación premium a laboratorios de élite.

Prime Intellect representa otro nuevo participante, dirigido al ecosistema de desarrolladores más amplio más allá de los laboratorios de IA de jardín amurallado. Respaldada por figuras prominentes, incluido el investigador de inteligencia artificial Andrej Karpathy, Founders Fund y Menlo Ventures, la startup lanzó un centro de entornos RL el mes pasado. Modelado como “Hugging Face para entornos RL”, democratiza el acceso a recursos avanzados para contribuyentes de código abierto, mientras monetiza a través de servicios informáticos. El investigador Will Brown enfatizó la intensidad computacional de capacitar a los agentes en estos entornos y afirmó: “Los entornos RL van a ser demasiado grandes para que cualquier empresa los domine. Parte de lo que estamos haciendo es simplemente tratar de construir una buena infraestructura de código abierto a su alrededor. El servicio que vendemos es computación, por lo que es una vía de acceso conveniente para usar GPU, pero estamos pensando en esto más a largo plazo”. Al facilitar el acceso a la GPU, Prime Intellect no solo fomenta el progreso impulsado por la comunidad, sino que también aprovecha la creciente necesidad de soluciones de hardware escalables en la capacitación en IA.

Los inversores ven este floreciente sector a través de la lente de éxitos pasados, con la esperanza de que surja un jugador destacado como la “IA de escala para entornos”, una fuerza dominante similar a cómo Scale impulsó la ola de IA generativa. La afluencia de financiación refleja el optimismo de que los entornos de realidad virtual podrían desbloquear el próximo salto en la IA agente, permitiendo sistemas que se integren perfectamente con herramientas, naveguen por la web y ejecuten flujos de trabajo empresariales. Sin embargo, la competitividad del campo es intensa, y Sherwin Wu de OpenAI, jefe de ingeniería de su negocio API, expresó una posición “corta” sobre las nuevas empresas del entorno RL en un podcast reciente. Wu destacó la rápida evolución de la investigación de la IA, lo que dificulta que los proveedores mantengan el ritmo y ofrezcan valor de manera constante.

  Claude Mythos identifica 271 vulnerabilidades en el navegador Firefox

Un elemento central del entusiasmo es el impacto comprobado de RL en los hitos recientes de la IA. El modelo o1 de OpenAI y Claude Opus 4 de Anthropic aprovecharon el aprendizaje por refuerzo para lograr capacidades de razonamiento que superaron a los métodos anteriores, que ahora están arrojando rendimientos decrecientes. Estos avances surgieron de inversiones en RL combinadas con computación en tiempo de prueba, como los creadores de o1 compartieron anteriormente con TechCrunch, apostando por su escalabilidad con datos y recursos adicionales. Los entornos RL mejoran esto al proporcionar espacios interactivos donde los agentes pueden experimentar con herramientas similares al mundo real, lo que potencialmente genera señales de aprendizaje más ricas que las recompensas basadas únicamente en texto. Sus defensores argumentan que a medida que los laboratorios incorporen más potencia computacional (que ya es un esfuerzo multimillonario), estas simulaciones podrían impulsar un progreso sostenido hacia agentes de IA de uso general.

A pesar del impulso, los escépticos advierten contra la exageración de los entornos RL. Los desafíos incluyen el “pirateo de recompensas”, donde los agentes explotan las lagunas para maximizar las puntuaciones sin dominar realmente las tareas, como señaló Ross Taylor, ex líder de investigación de Meta AI y cofundador de General Reasoning. Taylor advirtió: “Creo que la gente está subestimando lo difícil que es escalar entornos. Incluso los mejores [entornos RL] disponibles públicamente normalmente no funcionan sin modificaciones importantes”. El escalado requiere no solo más entornos, sino también mejoras para mitigar estos problemas, garantizando que las simulaciones sigan siendo fieles a las aplicaciones reales. Incluso públicoLos puntos de referencia c a menudo exigen ajustes extensos, lo que resalta la brecha entre los prototipos y las herramientas listas para producción.

Andrej Karpathy, si bien es inversor en Prime Intellect y defensor de los entornos y las interacciones agentes, modera el entusiasmo por la propia RL. En una publicación en X, afirmó: “Soy optimista sobre los entornos y las interacciones agentes, pero soy bajista específicamente sobre el aprendizaje por refuerzo”. La perspectiva matizada de Karpathy subraya un debate más amplio: si bien los entornos ofrecen un camino estructurado para el entrenamiento de agentes, el paradigma RL subyacente puede enfrentar límites inherentes a la hora de extraer mayores beneficios de las arquitecturas actuales.