DeepMind revela Genie 3, un modelo de mundo que podría ser la clave para alcanzar la AGI.
Créditos de la imagen: VCG/VCG / Getty Images
Google DeepMind ha revelado Genie 3, su último modelo de mundo fundacional que el laboratorio de inteligencia artificial dice que presenta un paso crucial en el camino hacia la inteligencia artificial general, o inteligencia similar a la humana.
“Genie 3 es el primer modelo de mundo general de propósito interactivo en tiempo real,” dijo Shlomi Fruchter, director de investigación en DeepMind, durante una conferencia de prensa. “Va más allá de los modelos de mundo estrecho que existían antes. No está específico para ningún entorno en particular. Puede generar tanto mundos fotorrealistas como imaginarios, y todo lo que hay entre ellos.”
Genie 3, que aún está en previsualización de investigación y no está disponible públicamente, se basa en su predecesor Genie 2 – que puede generar nuevos entornos para agentes – y el último modelo de generación de video de DeepMind Veo 3 – que muestra un profundo entendimiento de la física.
Créditos de la imagen: Google DeepMind
Con una simple entrada de texto, Genie 3 puede generar múltiples minutos – en lugar de 10 a 20 segundos en Genie 2 – de entornos interactivos y tridimensionales a 24 frames por segundo con una resolución de 720p. El modelo también presenta “eventos de mundo controlables por entrada,” o la capacidad de usar una entrada para cambiar el mundo generado.
Quizás lo más importante, las simulaciones de Genie 3 mantienen la consistencia física a lo largo del tiempo porque el modelo puede recordar lo que había generado anteriormente – una capacidad emergente que los investigadores de DeepMind no programaron explícitamente en el modelo.
Fruchter dijo que mientras Genie 3 claramente tiene implicaciones para experiencias educativas y nuevos medios generativos como juegos o prototipos de conceptos creativos, su verdadero desbloqueo se manifestará en el entrenamiento de agentes para tareas de propósito general, lo que considera esencial para alcanzar la AGI.
“Creemos que los modelos de mundo son clave en el camino hacia la AGI, especialmente para agentes encarnados, donde simular escenarios del mundo real es particularmente desafiante,” dijo Jack Parker-Holder, científico de investigación en el equipo de apertura de DeepMind, durante una conferencia.
Créditos de la imagen: Google DeepMind
Genie 3 está diseñado para resolver ese cuellos de botella. Al igual que Veo, no depende de un motor de física codificado de manera rígida. En su lugar, se enseña a sí mismo cómo funciona el mundo – cómo se mueven los objetos, caen y interactúan – recordando lo que ha generado y razonando sobre horizontes de tiempo largos.
“El modelo es auto-regresivo, lo que significa que genera un frame a la vez,” le dijo Fruchter a TechCrunch en una entrevista separada. “Tiene que mirar hacia atrás en lo que se generó antes para decidir qué va a pasar a continuación. Eso es una parte clave de la arquitectura.”
Esa memoria crea consistencia en sus mundos simulados, y esa consistencia le permite desarrollar una especie de comprensión intuitiva de la física, similar a cómo los humanos entienden que un vaso que se inclina sobre el borde de una mesa está a punto de caer, o que deben agacharse para evitar un objeto que cae.
Esta capacidad para simular entornos coherentes y físicamente plausibles a lo largo del tiempo convierte a Genie 3 en mucho más que un modelo generativo. Se convierte en un terreno ideal para agentes de propósito general. No solo puede generar mundos ilimitados y diversos para explorar, sino que también tiene el potencial de llevar a los agentes al límite – obligándolos a adaptarse, luchar y aprender de su propia experiencia de una manera que refleja cómo los humanos aprenden en el mundo real.
Créditos de la imagen: Google DeepMind
Actualmente, el rango de acciones que puede realizar un agente aún es limitado. Por ejemplo, los eventos de mundo controlables por entrada permiten una amplia gama de intervenciones ambientales, pero no necesariamente las realizan los agentes por sí mismos. De manera similar, aún es difícil modelar con precisión las interacciones complejas entre múltiples agentes independientes en un entorno compartido. Genie 3 también solo puede soportar unos pocos minutos de interacción continua, cuando horas serían necesarias para un entrenamiento adecuado.
Sin embargo, Genie 3 representa un avance significativo en la enseñanza de los agentes para que vayan más allá de reaccionar a las entradas, de modo que puedan planificar, explorar, buscar incertidumbre y mejorar a través de ensayo y error – el tipo de aprendizaje encarnado y autodirigido que es clave para avanzar hacia la inteligencia general.
“No hemos tenido aún un momento Move 37 para agentes encarnados, donde puedan tomar acciones novedosas en el mundo real,” dijo Parker-Holder, refiriéndose al legendario momento en el juego de Go de 2016 entre el agente de DeepMind AlphaGo y el campeón mundial Lee Sedol, en el que AlphaGo jugó un movimiento poco convencional y brillante que se convirtió en un símbolo de la capacidad de la IA para descubrir nuevas estrategias más allá del entendimiento humano.
“Pero ahora, podemos potencialmente dar inicio a una nueva era,” dijo.



