Entrada

Silicon Valley apuesta fuerte por los 'entornos' para entrenar a los agentes de IA.

Silicon Valley apuesta fuerte por los 'entornos' para entrenar a los agentes de IA.

AI robot face and programming code on a black background.

Image Credits:Yuichiro Chino / Getty Images

Durante años, los CEO de Big Tech han promocionado visiones de agentes de IA que pueden usar aplicaciones de software de manera autónoma para completar tareas para las personas. Pero si pruebas hoy los agentes de IA para consumidores, ya sea OpenAI’s ChatGPT Agent o Perplexity’s Comet, rápidamente te darás cuenta de lo limitado que sigue siendo la tecnología. Hacer que los agentes de IA sean más robustos puede requerir un nuevo conjunto de técnicas que la industria aún está descubriendo.

Una de esas técnicas es simular cuidadosamente entornos de trabajo donde los agentes pueden ser entrenados en tareas de varios pasos — conocidas como entornos de aprendizaje por refuerzo (RL). De manera similar a cómo los conjuntos de datos etiquetados impulsaron la última oleada de IA, los entornos de RL están comenzando a parecer un elemento crítico en el desarrollo de agentes.

Los investigadores de IA, fundadores e inversores le dicen a TechCrunch que los principales laboratorios de IA ahora exigen más entornos de RL, y no hay escasez de startups que esperan satisfacer esa demanda.

“Todos los grandes laboratorios de IA están construyendo entornos de RL en casa,” dijo Jennifer Li, socia general de Andreessen Horowitz, en una entrevista con TechCrunch. “Pero, como puedes imaginar, crear estos conjuntos de datos es muy complejo, por lo que los laboratorios de IA también están buscando a proveedores de terceros que puedan crear entornos y evaluaciones de alta calidad. Todo el mundo está mirando este espacio.”

El impulso por los entornos de RL ha dado lugar a una nueva clase de startups bien financiadas, como Mechanize y Prime Intellect, que aspiran a liderar el espacio. Mientras tanto, las grandes empresas de etiquetado de datos como Mercor y Surge dicen que están invirtiendo más en entornos de RL para mantenerse al día con el cambio de la industria de conjuntos de datos estáticos a simulaciones interactivas. Los principales laboratorios también están considerando invertir en gran medida: según The Information, los líderes de Anthropic han discutido gastar más de $1 billón en entornos de RL en el próximo año.

La esperanza para los inversores y fundadores es que una de estas startups emerja como el “Scale AI para entornos,” refiriéndose al $29 billón de potencia de etiquetado de datos que impulsó la era de los chatbots.

La pregunta es si los entornos de RL realmente impulsarán el avance de la IA.

En su núcleo, los entornos de RL son terrenos de entrenamiento que simulan lo que un agente de IA estaría haciendo en una aplicación de software real. Un fundador describió construirlos en una entrevista reciente “como crear un videojuego muy aburrido.”

Por ejemplo, un entorno podría simular un navegador Chrome y encargar a un agente de IA comprar un par de calcetines en Amazon. El agente es evaluado según su rendimiento y recibe una señal de recompensa cuando tiene éxito (en este caso, comprar un par de calcetines digno).

Aunque esta tarea suena relativamente simple, hay muchos lugares donde un agente de IA podría tropezar. Podría perderse navegando por los menús desplegables de la página web o comprar demasiados calcetines. Y, como los desarrolladores no pueden predecir exactamente qué giro equivocado tomará un agente, el entorno mismo debe ser lo suficientemente robusto para capturar cualquier comportamiento inesperado y aún proporcionar retroalimentación útil. Esto hace que la construcción de entornos sea mucho más compleja que un conjunto de datos estático.

Algunos entornos son bastante elaborados, permitiendo a los agentes de IA usar herramientas, acceder a Internet o usar diversas aplicaciones de software para completar una tarea dada. Otros son más estrechos, destinados a ayudar a un agente a aprender tareas específicas en aplicaciones de software empresarial.

Aunque los entornos de RL son la última moda en Silicon Valley en este momento, hay mucho precedente para usar esta técnica. Uno de los primeros proyectos de OpenAI en 2016 fue construir “Gyms de RL,” que eran bastante similares a la concepción moderna de entornos. Ese mismo año, el sistema de IA AlphaGo de Google DeepMind derrotó a un campeón mundial en el juego de mesa Go. También utilizó técnicas de RL dentro de un entorno simulado.

Lo que es único sobre los entornos de hoy es que los investigadores están tratando de construir agentes de IA que usen computadoras con grandes modelos transformadores. A diferencia de AlphaGo, que era un sistema de IA especializado trabajando en un entorno cerrado, los agentes de IA de hoy se entrenan para tener capacidades más generales. Los investigadores de IA de hoy tienen un punto de partida más fuerte, pero también un objetivo más complicado donde puede salir mal más.

Un campo concurrido

Las empresas de etiquetado de datos de IA como Scale AI, Surge y Mercor están tratando de satisfacer el momento y construir entornos de RL. Estas empresas tienen más recursos que muchas startups en el espacio, así como relaciones profundas con laboratorios de IA.

El CEO de Surge, Edwin Chen, le dijo a TechCrunch que ha visto un “aumento significativo” en la demanda de entornos de RL dentro de los laboratorios de IA. Surge — que supuestamente generó $1.2 billón en ingresos el año pasado trabajando con laboratorios de IA como OpenAI, Google, Anthropic y Meta — recently spun up a new internal organization specifically tasked with building out RL environments, he said.

Justo detrás de Surge está Mercor, una startup valorada en $10 billón, que también ha trabajado con OpenAI, Meta y Anthropic. Mercor está pitchando a inversores su negocio construyendo entornos de RL para tareas específicas de dominio como programación, salud y derecho, según materiales de marketing vistos por TechCrunch.

El CEO de Mercor, Brendan Foody, le dijo a TechCrunch en una entrevista que “pocos entienden cuán grande es la oportunidad alrededor de los entornos de RL.”

Scale AI solía dominar el espacio de etiquetado de datos, pero ha perdido terreno desde que Metainvertió $14 billón y se llevó a su CEO. Desde entonces, Google y OpenAI dejó de lado a Scale AI como proveedor de datos, y la startup incluso enfrenta competencia por trabajo de etiquetado de datos dentro de Meta. Pero aún así, Scale está tratando de satisfacer el momento y construir entornos.

“Esto es simplemente la naturaleza del negocio [Scale AI] está en,” dijo Chetan Rane, jefe de producto para agentes y entornos de RL de Scale AI. “Scale ha demostrado su capacidad para adaptarse rápidamente. Lo hicimos en los primeros días de los vehículos autónomos, nuestra primera unidad de negocio. Cuando salió ChatGPT, Scale AI se adaptó a eso. Y ahora, una vez más, estamos adaptándonos a nuevos espacios fronterizos como agentes y entornos.”

Algunos nuevos jugadores están enfocándose exclusivamente en entornos desde el principio. Entre ellos está Mechanize, una startup fundada hace aproximadamente seis meses con el ambicioso objetivo de “automatizar todos los trabajos.” Sin embargo, el cofundador Matthew Barnett le dijo a TechCrunch que su empresa está comenzando con entornos de RL para agentes de programación de IA.

Mechanize aspira a suministrar a los laboratorios de IA un pequeño número de entornos de RL robustos, dijo Barnett. En lugar de las grandes empresas de datos que crean una amplia gama de entornos de RL simples, Mechanize ofrece a los ingenieros de software $500,000 salarios para construir entornos de RL — mucho más altos de lo que un contratista a tiempo parcial podría ganar trabajando en Scale AI o Surge.

Mechanize ya ha estado trabajando con Anthropic en entornos de RL, dijeron dos fuentes familiarizadas con el asunto a TechCrunch. Mechanize y Anthropic declined to comment on the partnership.

Otras startups están apostando a que los entornos de RL tendrán influencia fuera de los laboratorios de IA. Prime Intellect — una startup respaldada por el investigador de IA Andrej Karpathy, Founders Fund y Menlo Ventures — está dirigiéndose a desarrolladores más pequeños con sus entornos de RL.

El mes pasado, Prime Intellect lanzó un hub de entornos de RL, que aspira a ser un “Hugging Face para entornos de RL.” La idea es dar a los desarrolladores de código abierto acceso a los mismos recursos que tienen los grandes laboratorios de IA, y venderles acceso a recursos computacionales en el proceso.

El entrenamiento de agentes generalmente capaces en entornos de RL puede ser más computacionalmente costoso que los métodos anteriores de entrenamiento de IA, según el investigador de Prime Intellect Will Brown. Además de las startups que construyen entornos de RL, hay otra oportunidad para proveedores de GPU que puedan alimentar el proceso.

“Los entornos de RL van a ser demasiado grandes para que una sola empresa los domine,” dijo Brown en una entrevista. “Una parte de lo que estamos haciendo es simplemente tratar de construir buena infraestructura de código abierto a su alrededor. El servicio que vendemos es computación, por lo que es un punto de entrada conveniente para usar GPUs, pero estamos pensando a largo plazo.”

¿Se escalará?

La pregunta abierta sobre los entornos de RL es si la técnica se escalará como los métodos anteriores de entrenamiento de IA.

El aprendizaje por refuerzo ha impulsado algunos de los mayores avances en IA en el último año, incluyendo modelos como o1 de OpenAI y Claude Opus 4 de Anthropic. Estos son avances particularmente importantes porque los métodos anteriormente utilizados para mejorar los modelos de IA ahora muestran retornos decrecientes.

Los entornos son parte de la apuesta mayor de los laboratorios de IA en RL, que muchos creen que continuará impulsando el progreso a medida que añadan más datos y recursos computacionales al proceso. Algunos de los investigadores de OpenAI detrás de o1 le dijeron anteriormente a TechCrunch que la empresa invirtió en modelos de razonamiento de IA — que fueron creados a través de inversiones en RL y computación en tiempo real — porque pensaban que se escalaría bien.

La mejor manera de escalar RL sigue siendo incierta, pero los entornos parecen ser un contendiente prometedor. En lugar de simplemente recompensar a los chatbots por respuestas de texto, les permiten operar en simulaciones con herramientas y computadoras a su disposición. Esto es mucho más intensivo en recursos, pero potencialmente más gratificante.

Algunos son escépticos de que todos estos entornos de RL salgan bien. Ross Taylor, un ex líder de investigación de IA con Meta que cofundó General Reasoning, le dijo a TechCrunch que los entornos de RL son propensos al hackeo de recompensas. Esto es un proceso en el que los modelos de IA engañan para obtener una recompensa sin realmente hacer la tarea.

“Creo que la gente está subestimando cuán difícil es escalar entornos,” dijo Taylor. “Incluso los mejores entornos de RL disponibles públicamente generalmente no funcionan sin modificaciones serias.”

El jefe de ingeniería para el negocio de API de OpenAI, Sherwin Wu, dijo en un reciente podcast que estaba “escaso” de startups de RL. Wu notó que es un espacio muy competitivo, pero también que la investigación de IA está evolucionando tan rápidamente que es difícil servir bien a los laboratorios de IA.

Karpathy, un inversor en Prime Intellect que ha llamado entornos de RL un posible avance, también ha expresado cautela sobre el espacio de RL en general. En un post en X, levantó preocupaciones sobre cuánto más progreso puede extraerse de RL.

“Estoy optimista sobre los entornos y las interacciones agenciales, pero soy pesimista sobre el aprendizaje por refuerzo en general,” dijo Karpathy.

Actualización: Una versión anterior de este artículo se refirió a Mechanize como Mechanize Work. Se ha actualizado para reflejar el nombre oficial de la empresa.

Esta entrada está licenciada bajo CC BY 4.0 por el autor.