Entrada

Silicon Valley apuesta fuerte por 'entornos' para entrenar agentes de IA.

Silicon Valley apuesta fuerte por 'entornos' para entrenar agentes de IA.

AI robot face and programming code on a black background.

Image Credits:Yuichiro Chino / Getty Images

Durante años, los CEO de Big Tech han promocionado visiones de agentes de IA que pueden usar aplicaciones de software de manera autónoma para completar tareas para las personas. Pero si pruebas hoy los agentes de IA para consumidores, ya sea OpenAI’s ChatGPT Agent o Perplexity’s Comet, rápidamente te darás cuenta de lo limitado que sigue siendo la tecnología. Hacer que los agentes de IA sean más robustos puede requerir un nuevo conjunto de técnicas que la industria aún está descubriendo.

Una de esas técnicas es simular cuidadosamente entornos de trabajo donde los agentes pueden entrenarse en tareas de varios pasos — conocidas como entornos de aprendizaje por refuerzo (RL). Al igual que los conjuntos de datos etiquetados impulsaron la última oleada de IA, los entornos de RL parecen estar convirtiéndose en un elemento crítico en el desarrollo de agentes.

Investigadores de IA, fundadores e inversores le dicen a TechCrunch que los principales laboratorios de IA ahora exigen más entornos de RL, y no falta el número de startups que esperan poder satisfacer esa demanda.

“Todos los grandes laboratorios de IA están construyendo entornos de RL en casa,” dijo Jennifer Li, socia general de Andreessen Horowitz, en una entrevista con TechCrunch. “Pero, como puedes imaginar, crear estos conjuntos de datos es muy complejo, por lo que los laboratorios de IA también están buscando proveedores de terceros que puedan crear entornos y evaluaciones de alta calidad. Todo el mundo está mirando este espacio.”

La demanda de entornos de RL ha dado lugar a una nueva clase de startups bien financiadas, como Mechanize Work y Prime Intellect, que aspiran a liderar el espacio. Mientras tanto, grandes empresas de etiquetado de datos como Mercor y Surge dicen que están invirtiendo más en entornos de RL para mantenerse al día con el cambio de la industria de conjuntos de datos estáticos a simulaciones interactivas. Los principales laboratorios también están considerando invertir fuertemente: según The Information, los líderes de Anthropic han discutido gastar más de $1 billón en entornos de RL en el próximo año.

La esperanza para los inversores y fundadores es que una de estas startups emerja como el “Scale AI para entornos,” refiriéndose al $29 billón de potencia de etiquetado de datos que impulsó la era de los chatbots.

La pregunta es si los entornos de RL realmente impulsarán el avance de la IA.

En su esencia, los entornos de RL son terrenos de entrenamiento que simulan lo que un agente de IA estaría haciendo en una aplicación de software real. Un fundador describió su construcción en una entrevista reciente “como crear un videojuego muy aburrido.”

Por ejemplo, un entorno podría simular un navegador Chrome y encargar a un agente de IA la compra de un par de calcetines en Amazon. El agente es calificado por su rendimiento y recibe una señal de recompensa cuando tiene éxito (en este caso, comprando un par digno de calcetines).

Aunque una tarea así suena relativamente sencilla, hay muchos lugares donde un agente de IA podría tropezar. Podría perderse navegando por los menús desplegables de la página web o comprar demasiados calcetines. Y como los desarrolladores no pueden prever exactamente qué giro equivocado tomará un agente, el entorno mismo debe ser lo suficientemente robusto como para capturar cualquier comportamiento inesperado y aún proporcionar una retroalimentación útil. Esto hace que la construcción de entornos sea mucho más compleja que un conjunto de datos estático.

Algunos entornos son bastante robustos, permitiendo que los agentes de IA utilicen herramientas, accedan a Internet o utilicen diversas aplicaciones de software para completar una tarea dada. Otros son más estrechos, destinados a ayudar a un agente a aprender tareas específicas en aplicaciones de software empresarial.

Aunque los entornos de RL son la última moda en Silicon Valley en este momento, hay mucho precedente para usar esta técnica. Uno de los primeros proyectos de OpenAI en 2016 fue construir “Gyms de RL,” que eran bastante similares a la concepción moderna de entornos. El mismo año, Google DeepMind entrenó AlphaGo — un sistema de IA que podía derrotar a un campeón mundial en el juego de mesa Go — utilizando técnicas de RL dentro de un entorno simulado.

Lo único que es único en los entornos de hoy es que los investigadores están tratando de construir agentes de IA que utilicen computadoras con grandes modelos transformadores. A diferencia de AlphaGo, que era un sistema de IA especializado trabajando en un entorno cerrado, los agentes de IA de hoy están entrenados para tener capacidades más generales. Los investigadores de IA de hoy tienen un punto de partida más fuerte, pero también un objetivo más complicado donde puede ir mal más.

Un campo concurrido

Las empresas de etiquetado de datos de IA como Scale AI, Surge y Mercor están tratando de satisfacer el momento y construir entornos de RL. Estas empresas tienen más recursos que muchas startups en el espacio, así como relaciones profundas con laboratorios de IA.

El CEO de Surge, Edwin Chen, le dijo a TechCrunch que ha visto un “aumento significativo” en la demanda de entornos de RL dentro de los laboratorios de IA. Surge — que reportedly generó $1.2 billón en ingresos el año pasado trabajando con laboratorios de IA como OpenAI, Google, Anthropic y Meta — recientemente lanzó una nueva organización interna específicamente encargada de construir entornos de RL, dijo.

Justo detrás de Surge está Mercor, una startup valorada en $10 billones, que también ha trabajado con OpenAI, Meta y Anthropic. Mercor está pitchando a inversores su negocio construyendo entornos de RL para tareas específicas del dominio como el codificación, la salud y el derecho, según materiales de marketing vistos por TechCrunch.

El CEO de Mercor, Brendan Foody, le dijo a TechCrunch en una entrevista que “pocos entienden cuán grande es la oportunidad alrededor de los entornos de RL.”

Scale AI solía dominar el espacio de etiquetado de datos, pero ha perdido terreno desde que Meta invirtió $14 billones y se llevó a su CEO. Desde entonces, Google y OpenAI dejó de ser clientes de Scale AI, y la startup incluso enfrenta competencia por trabajo de etiquetado de datos dentro de Meta. Pero aún así, Scale está tratando de satisfacer el momento y construir entornos.

“Esto es simplemente la naturaleza del negocio [Scale AI] está en,” dijo Chetan Rane, jefe de productos de Scale AI para agentes y entornos de RL. “Scale ha demostrado su capacidad para adaptarse rápidamente. Lo hicimos en los primeros días de los vehículos autónomos, nuestra primera unidad de negocio. Cuando salió ChatGPT, Scale AI se adaptó a eso. Y ahora, una vez más, estamos adaptándonos a nuevos espacios fronterizos como agentes y entornos.”

Algunos nuevos jugadores se centran exclusivamente en entornos desde el principio. Entre ellos está Mechanize Work, una startup fundada hace unos seis meses con el objetivo audaz de “automatizar todos los trabajos.” Sin embargo, el cofundador Matthew Barnett le dijo a TechCrunch que su empresa está comenzando con entornos de RL para agentes de codificación de IA.

Mechanize Work aspira a suministrar a los laboratorios de IA un pequeño número de entornos de RL robustos, dijo Barnett. En lugar de grandes empresas de datos que crean una amplia gama de entornos de RL simples, el startup ofrece a los ingenieros de software $500,000 de salarios para construir entornos de RL — mucho más de lo que un contratista a tiempo parcial podría ganar trabajando en Scale AI o Surge.

Mechanize Work ya ha estado trabajando con Anthropic en entornos de RL, dijeron dos fuentes familiarizadas con el asunto a TechCrunch. Mechanize Work y Anthropic declinaron comentar sobre la asociación.

Otras startups están apostando a que los entornos de RL tendrán influencia fuera de los laboratorios de IA. Prime Intellect — una startup respaldada por el investigador de IA Andrej Karpathy, Founders Fund y Menlo Ventures — está dirigiéndose a desarrolladores más pequeños con sus entornos de RL.

El mes pasado, Prime Intellect lanzó un hub de entornos de RL, que aspira a ser un “Hugging Face para entornos de RL.” La idea es proporcionar a los desarrolladores de código abierto los mismos recursos que tienen los grandes laboratorios de IA y venderles acceso a recursos computacionales en el proceso.

El entrenamiento de agentes generalmente capaces en entornos de RL puede ser más computacionalmente costoso que los métodos anteriores de entrenamiento de IA, según el investigador de Prime Intellect Will Brown. Además de las startups que construyen entornos de RL, hay otra oportunidad para proveedores de GPU que pueden alimentar el proceso.

“Los entornos de RL van a ser demasiado grandes para que una sola empresa los domine,” dijo Brown en una entrevista. “Una parte de lo que estamos haciendo es simplemente construir buena infraestructura de código abierto a su alrededor. El servicio que vendemos es computación, por lo que es un punto de entrada conveniente para usar GPU, pero estamos pensando a más largo plazo.”

¿Funcionará?

La pregunta abierta sobre los entornos de RL es si la técnica escalará como los métodos anteriores de entrenamiento de IA.

El aprendizaje por refuerzo ha impulsado algunos de los mayores avances en IA en el último año, incluyendo modelos como o1 de OpenAI y Claude Opus 4 de Anthropic. Estos son avances particularmente importantes porque los métodos anteriormente utilizados para mejorar los modelos de IA ahora están mostrando retornos decrecientes.

Los entornos son parte de la apuesta más grande de los laboratorios de IA en RL, que muchos creen que continuará impulsando el progreso a medida que agreguen más datos y recursos computacionales al proceso. Algunos de los investigadores de OpenAI detrás de o1 le dijeron anteriormente a TechCrunch que la empresa invirtió en modelos de razonamiento de IA — que se crearon a través de inversiones en RL y computación en tiempo real — porque pensaron que escalaría bien.

La mejor manera de escalar RL sigue siendo incierta, pero los entornos parecen ser un contendiente prometedor. En lugar de simplemente recompensar a los chatbots por respuestas de texto, permiten que los agentes operen en simulaciones con herramientas y computadoras a su disposición. Esto es mucho más intensivo en recursos, pero potencialmente más gratificante.

Algunos son escépticos de que todos estos entornos de RL funcionen. Ross Taylor, un ex líder de investigación de IA con Meta que cofundó General Reasoning, le dijo a TechCrunch que los entornos de RL son propensos a la manipulación de recompensas. Este es un proceso en el que los modelos de IA engañan para obtener una recompensa sin realmente hacer la tarea.

“Creo que la gente está subestimando cuán difícil es escalar entornos,” dijo Taylor. “Incluso los mejores entornos de RL disponibles públicamente generalmente no funcionan sin modificaciones serias.”

El jefe de ingeniería de OpenAI para su negocio de API, Sherwin Wu, dijo en un reciente podcast que estaba “corto” en startups de entornos de RL. Wu señaló que es un espacio muy competitivo, pero también que la investigación de IA está evolucionando tan rápidamente que es difícil servir bien a los laboratorios de IA.

Karpathy, un inversor en Prime Intellect que ha llamado a los entornos de RL un posible avance, también ha expresado cautela sobre el espacio de RL en general. En un post en X, levantó preocupaciones sobre cuánto más progreso puede extraerse de RL.

“Estoy optimista sobre los entornos y las interacciones de agentes, pero soy pesimista sobre el aprendizaje por refuerzo en general,” dijo Karpathy.

Esta entrada está licenciada bajo CC BY 4.0 por el autor.