Dentro de la búsqueda de OpenAI para hacer que la IA haga cualquier cosa por ti.
Image Credits:Justin Sullivan / Getty Images
Poco después de que Hunter Lightman se unió a OpenAI como investigador en 2022, observó cómo sus colegas lanzaban ChatGPT, uno de los productos que más rápido creció. Mientras tanto, Lightman trabajaba en silencio en un equipo que enseñaba a los modelos de OpenAI a resolver competiciones de matemáticas de secundaria.
Hoy, ese equipo, conocido como MathGen, es considerado fundamental en el esfuerzo de OpenAI para crear modelos de razonamiento AI que son líderes en la industria: la tecnología básica detrás de los agentes AI que pueden realizar tareas en una computadora como lo haría un humano.
“Estábamos tratando de hacer que los modelos fueran mejores en la razonamiento matemático, lo cual no eran muy buenos en ese momento,” dijo Lightman a TechCrunch, describiendo el trabajo inicial de MathGen.
Los modelos de OpenAI no son perfectos hoy en día — la última tecnología de AI de la empresa aún alucina y sus agentes tienen dificultades con tareas complejas.
Sin embargo, sus modelos de vanguardia han mejorado significativamente en razonamiento matemático. Uno de los modelos de OpenAI ganó recientemente una medalla de oro en la Olimpiada Internacional de Matemáticas, una competencia de matemáticas para los estudiantes más brillantes de secundaria del mundo. OpenAI cree que estas capacidades de razonamiento se traducirán en otras materias y, en última instancia, alimentarán agentes de propósito general que la empresa siempre ha soñado con construir.
ChatGPT fue un feliz accidente — un avance de investigación de bajo perfil que se convirtió en un negocio de consumo viral — pero los agentes de OpenAI son el resultado de un esfuerzo deliberado y de años dentro de la empresa.
“Eventualmente, solo le preguntarás a la computadora lo que necesitas y ella hará todas estas tareas por ti,” dijo el CEO de OpenAI, Sam Altman, en la primera conferencia de desarrolladores de la empresa en 2023. “Estas capacidades se llaman agentes en el campo de la inteligencia artificial. Los beneficios de esto serán enormes.”
OpenAI CEO Sam Altman speaks during the OpenAI DevDay event on November 06, 2023 in San Francisco, California.(Photo by Justin Sullivan/Getty Images)
Si los agentes cumplirán con la visión de Altman, aún está por verse, pero OpenAI sorprendió al mundo con el lanzamiento de su primer modelo de razonamiento AI, o1, en el otoño de 2024. Menos de un año después, los 21 investigadores fundadores detrás de ese avance se convirtieron en los talentos más codiciados de Silicon Valley.
Mark Zuckerberg contrató a cinco de los investigadores de o1 para trabajar en la nueva unidad de superinteligencia de Meta, ofreciendo algunos paquetes de compensación superiores a los 100 millones de dólares. Uno de ellos, Shengjia Zhao, fue recientemente nombrado jefe científico de Meta Superintelligence Labs.
El avance de los modelos de razonamiento y los agentes de OpenAI está relacionado con una técnica de entrenamiento de aprendizaje por refuerzo (RL) conocida como aprendizaje por refuerzo (RL). RL proporciona retroalimentación a un modelo de AI sobre si sus elecciones fueron correctas o no en entornos simulados.
RL ha sido utilizada durante décadas. Por ejemplo, en 2016, aproximadamente un año después de que OpenAI fuera fundada en 2015, un sistema de AI creado por Google DeepMind utilizando RL, AlphaGo, ganó atención global al derrotar a un campeón mundial en el juego de tablero, Go.
South Korean professional Go player Lee Se-Dol (R) prepares for su cuarta partida contra el programa de inteligencia artificial de Google, AlphaGo, durante el desafío de Google DeepMind Match el 13 de marzo de 2016 en Seúl, Corea del Sur. Lee Se-dol jugó una serie de cinco partidas contra un programa de computadora desarrollado por Google, AlphaGo. (Foto de Google a través de Getty Images)
En ese momento, uno de los primeros empleados de OpenAI, Andrej Karpathy, comenzó a pensar en cómo utilizar RL para crear un agente de AI que pudiera usar una computadora. Pero le llevó años a OpenAI desarrollar los modelos y técnicas de entrenamiento necesarios.
Para 2018, OpenAI innovó su primer modelo de lenguaje grande en la serie GPT, pretrainado en grandes cantidades de datos de internet y un gran clúster de GPUs. Los modelos GPT excelían en el procesamiento de texto, lo que eventualmente llevó a ChatGPT, pero luchaban con la matemática básica.
No fue hasta 2023 cuando OpenAI logró un avance, inicialmente conocido como “Q*” y luego “Strawberry”, combinando LLMs, RL y una técnica llamada computación en tiempo de prueba. Esta última dio a los modelos más tiempo y potencia de cálculo para planificar y trabajar en problemas, verificando sus pasos antes de proporcionar una respuesta.
Esto permitió a OpenAI introducir un nuevo enfoque llamado “cadena de pensamiento” (CoT), que mejoró el rendimiento de los modelos de AI en preguntas de matemáticas que no habían visto antes.
“Pude ver al modelo comenzando a razonar,” dijo El Kishky. “Notaba errores y retrocedía, se frustraba. Parecía estar leyendo los pensamientos de una persona.”
Aunque individualmente estas técnicas no eran nuevas, OpenAI las combinó de manera única para crear Strawberry, que directamente llevó al desarrollo de o1. OpenAI rápidamente identificó que las capacidades de planificación y verificación de hechos de los modelos de razonamiento AI podrían ser útiles para alimentar a los agentes AI.
“Habíamos resuelto un problema con el que había estado golpeando mi cabeza durante un par de años,” dijo Lightman. “Fue uno de los momentos más emocionantes de mi carrera de investigación.”
Con los modelos de razonamiento AI, OpenAI determinó que tenía dos nuevos ejes que le permitirían mejorar los modelos de AI: utilizando más potencia de cálculo durante el postentrenamiento de los modelos de AI y dando a los modelos de AI más tiempo y potencia de cálculo mientras responden a una pregunta.
“OpenAI, como empresa, piensa mucho en no solo en cómo son las cosas, sino en cómo se van a escalar,” dijo Lightman.
Poco después del avance de Strawberry en 2023, OpenAI montó un equipo “Agentes” liderado por el investigador de OpenAI Daniel Selsam para hacer más progresos en esta nueva paradigma, según dos fuentes de TechCrunch. Aunque el equipo se llamaba “Agentes”, OpenAI no diferenciaba inicialmente entre los modelos de razonamiento y los agentes como los entendemos hoy. La empresa simplemente quería hacer sistemas de AI capaces de completar tareas complejas.
Finalmente, el trabajo del equipo de Agentes de Selsam se convirtió en parte de un proyecto más grande para desarrollar el modelo de razonamiento o1, con líderes que incluían al cofundador de OpenAI, Ilya Sutskever, el jefe de investigación Mark Chen y el jefe científico Jakub Pachocki.
Ilya Sutskever, computer scientist Russian Israeli-Canadian and co-founder and Chief Scientist of OpenAI, speaks at Tel Aviv University in Tel Aviv on June 5, 2023. (Photo by JACK GUEZ / AFP)
OpenAI tendría que desviar recursos preciados — principalmente talento y GPUs — para crear o1. A lo largo de la historia de OpenAI, los investigadores han tenido que negociar con los líderes de la empresa para obtener recursos; demostrar avances era una forma segura de conseguirlos.
“Uno de los componentes fundamentales de OpenAI es que todo en investigación es de base,” dijo Lightman. “Cuando mostramos las pruebas [de o1], la empresa dijo: ‘Esto tiene sentido, vamos a seguir adelante.’”
Algunos antiguos empleados dicen que la misión de OpenAI para desarrollar AGI fue la clave para lograr avances en los modelos de razonamiento AI. Al enfocarse en desarrollar los modelos de AI más inteligentes posibles, en lugar de productos, OpenAI pudo priorizar o1 por encima de otros esfuerzos. Este tipo de gran inversión en ideas no siempre era posible en los laboratorios de AI competidores.
La decisión de probar nuevos métodos de entrenamiento resultó ser presciente. Para finales de 2024, varios laboratorios de AI líderes comenzaron a ver retornos decrecientes en los modelos creados a través del escalado de pretraining tradicional. Hoy, gran parte del momentum del campo de la inteligencia artificial proviene de avances en los modelos de razonamiento.
¿Qué significa que un AI “razone?”
En muchos aspectos, el objetivo de la investigación de AI es recrear la inteligencia humana con computadoras. Desde el lanzamiento de o1, la experiencia de usuario de ChatGPT ha estado llena de características más humanas como “pensar” y “razonar.”
Cuando se le preguntó si los modelos de OpenAI estaban razonando de verdad, El Kishky se mostró cauteloso, diciendo que piensa en el concepto en términos de ciencia de la computación.
“Estamos enseñando al modelo a gastar computación de manera eficiente para obtener una respuesta. Así que si lo defines de esa manera, sí, está razonando,” dijo El Kishky.
Lightman toma un enfoque de centrarse en los resultados del modelo y no tanto en los medios o su relación con los cerebros humanos.
The OpenAI logo on screen at their developer day stage. (Credit: Devin Coldeway)
“Si el modelo está haciendo cosas difíciles, entonces está haciendo lo que sea necesario para aproximarse al razonamiento para hacer eso,” dijo Lightman. “Podemos llamarlo razonamiento, porque parece estas huellas de razonamiento, pero es solo una aproximación para hacer herramientas de AI que sean realmente poderosas y útiles para muchas personas.”
Los investigadores de OpenAI señalan que las personas pueden discrepar con su nomenclatura o definiciones de razonamiento — y, por supuesto, han surgido críticos — pero argumentan que es menos importante que las capacidades de sus modelos. Otros investigadores de AI tienden a estar de acuerdo.
Nathan Lambert, un investigador de AI de la organización sin fines de lucro AI2, compara los modos de razonamiento AI con aviones en un artículo de blog. Ambos, dice, son sistemas artificiales inspirados por la naturaleza — el razonamiento humano y el vuelo de los pájaros, respectivamente — pero operan a través de mecanismos completamente diferentes. Esto no los hace menos útiles ni menos capaces de lograr resultados similares.
Un grupo de investigadores de AI de OpenAI, Anthropic y Google DeepMind acordaron en un reciente artículo de posición que los modelos de razonamiento AI no están bien entendidos hoy en día y que se necesita más investigación. Puede ser demasiado pronto para afirmar con confianza qué está ocurriendo realmente dentro de ellos.
Los agentes de AI en el mercado hoy en día funcionan mejor para dominios bien definidos y verificables como el codificación. El agente de codificación de OpenAI, Codex, tiene como objetivo ayudar a los ingenieros de software a delegar tareas de codificación simples. Mientras tanto, los modelos de Anthropic se han convertido en particularmente populares en herramientas de codificación AI como Cursor y Claude Code — algunas de las primeras herramientas de AI que las personas están dispuestas a pagar.
Sin embargo, los agentes de propósito general como el Agente de ChatGPT de OpenAI y el Comet de Perplexity luchan con muchas de las tareas complejas y subjetivas que las personas quieren automatizar. Cuando intenté usar estos herramientas para compras en línea o encontrar un estacionamiento a largo plazo, encontré que los agentes tardaban más de lo que me gustaría y cometían errores tontos.
Los agentes, por supuesto, son sistemas tempranos que sin duda mejorarán. Pero los investigadores deben primero descubrir cómo entrenar mejor los modelos subyacentes para completar tareas más subjetivas.
AI applications (Photo by Jonathan Raa/NurPhoto via Getty Images)
“Como muchos problemas en el aprendizaje automático, es un problema de datos,” dijo Lightman cuando se le preguntó sobre las limitaciones de los agentes en tareas subjetivas. “Algunas de la investigación en la que estoy realmente emocionado en este momento es descubrir cómo entrenar en tareas que no son fácilmente verificables. Tenemos algunas pistas sobre cómo hacer estas cosas.”
Noam Brown, un investigador de OpenAI que ayudó a crear el modelo IMO y o1, le dijo a TechCrunch que OpenAI tiene nuevas técnicas de aprendizaje por refuerzo de propósito general que les permiten enseñar a los modelos de AI habilidades que no son fácilmente verificables. Esto es cómo la empresa construyó el modelo que ganó una medalla de oro en IMO, dijo.
El modelo IMO de OpenAI es un nuevo sistema de AI que genera múltiples agentes, que luego exploran simultáneamente varias ideas y luego eligen la mejor posible respuesta. Estos tipos de modelos de AI están ganando popularidad; Google y xAI han lanzado recientemente modelos de vanguardia utilizando esta técnica.
“Creo que estos modelos se volverán más capaces en matemáticas y creo que se volverán más capaces en otras áreas de razonamiento también,” dijo Brown. “El progreso ha sido increíblemente rápido. No veo ninguna razón para pensar que se ralentizará.”
Estas técnicas pueden ayudar a los modelos de OpenAI a volverse más performantes, mejoras que podrían aparecer en el próximo modelo GPT-5 de la empresa. OpenAI espera afirmarse como líder en el mercado con el lanzamiento de GPT-5, ofreciendo idealmente el mejor modelo de AI para alimentar agentes para desarrolladores y consumidores.
Sin embargo, la empresa también quiere hacer sus productos más fáciles de usar. El Kishky dice que OpenAI quiere desarrollar agentes de AI que entiendan intuitivamente lo que quieren los usuarios, sin necesidad de seleccionar configuraciones específicas. Dice que OpenAI aspira a construir sistemas de AI que sepan cuándo llamar a ciertas herramientas y durante cuánto tiempo razonar.
Estas ideas pintan una imagen de una versión ultimate de ChatGPT: un agente que pueda hacer cualquier cosa en internet por ti y entender cómo lo quieres hacer. Esto es muy diferente de lo que es ChatGPT hoy en día, pero la investigación de la empresa está claramente encaminada en esta dirección.
Aunque OpenAI sin duda lideró la industria de la inteligencia artificial hace unos años, la empresa ahora enfrenta una oleada de competidores dignos. La pregunta ya no es solo si OpenAI puede lograr su futuro de agentes, sino si puede hacerlo antes de que Google, Anthropic, xAI o Meta lo hagan.





