Entrada

Investigadores crearon un competidor abierto a OpenAI’s o1 ‘reasoning’ model por menos de $50.

Investigadores de AI en Stanford y la Universidad de Washington lograron entrenar un modelo de AI “razonamiento” por menos de $50 en créditos de computación en la nube, según un nuevo artículo de investigación publicado el pasado viernes.

El modelo conocido como s1 se desempeña de manera similar a los modelos de razonamiento de vanguardia, como OpenAI’s o1 y DeepSeek’s r1, en pruebas que miden habilidades matemáticas y de programación. El modelo s1 está disponible en GitHub, junto con los datos y el código utilizados para entrenarlo.

El equipo detrás de s1 afirmó que crearon el modelo de AI mediante la destilación, un proceso para extraer las capacidades de razonamiento de otro modelo de AI mediante el entrenamiento en sus respuestas. Los investigadores indicaron que s1 se ha destilado a partir de uno de los modelos de razonamiento de Google, Gemini 2.0 Flash Thinking Experimental. La destilación es el mismo enfoque que los investigadores de Berkeley utilizaron para crear un modelo de AI de razonamiento por alrededor de $450 el mes pasado.

Para algunos, la idea de que unos pocos investigadores sin millones de dólares detrás de ellos aún puedan innovar en el espacio de la AI es emocionante. Sin embargo, s1 plantea preguntas reales sobre la comercialización de los modelos de AI. ¿Dónde está el foso si alguien puede replicar de cerca un modelo de varios millones de dólares con un cambio de bolsillo?

No es de extrañar que los grandes laboratorios de AI no estén contentos. OpenAI ha acusado a DeepSeek de extraer datos de manera inapropiada de su API para los fines de destilación de modelos.

Los investigadores detrás de s1 buscaban encontrar el enfoque más simple para lograr un rendimiento fuerte en razonamiento y “escalado en tiempo de prueba,” o permitir que un modelo de AI piense más antes de responder a una pregunta. Estos fueron algunos de los avances en OpenAI’s o1, que DeepSeek y otros laboratorios de AI han intentado replicar mediante diversas técnicas.

El artículo de s1 sugiere que los modelos de razonamiento pueden ser destilados con un conjunto de datos relativamente pequeño utilizando un proceso llamado refuerzo supervisado (SFT), en el cual un modelo de AI se instruye explícitamente para imitar ciertos comportamientos en un conjunto de datos. SFT tiende a ser más barato que el método de aprendizaje por refuerzo a gran escala que DeepSeek empleó para entrenar su respuesta a OpenAI’s o1, R1.

Google ofrece acceso gratuito a Gemini 2.0 Flash Thinking Experimental, aunque con límites diarios de tasa, a través de su plataforma Google AI Studio. Sus términos prohíben la ingeniería inversa de sus modelos para desarrollar servicios que compitan con las propias ofertas de AI de Google. Hemos contactado a Google para obtener un comentario.

S1 se basa en un pequeño modelo de AI de uso general de Alibaba-owned Chinese AI lab Qwen, que está disponible para descargar de forma gratuita. Para entrenar s1, los investigadores crearon un conjunto de datos de solo 1,000 preguntas cuidadosamente seleccionadas, emparejadas con respuestas a esas preguntas, así como el “proceso de pensamiento” detrás de cada respuesta de Google’s Gemini 2.0 Flash Thinking Experimental.

Después de entrenar s1, que tomó menos de 30 minutos utilizando 16 Nvidia H100 GPUs, s1 logró un rendimiento fuerte en ciertos benchmarks de AI, según los investigadores. Niklas Muennighoff, un investigador de Stanford que trabajó en el proyecto, le dijo a TechCrunch que podría alquilar la computación necesaria hoy por alrededor de $20.

Los investigadores utilizaron una astucia para hacer que s1 se autoevaluara y extendiera su “tiempo de pensamiento”: les dijeron que esperara. Añadir la palabra “espera” durante el razonamiento de s1 ayudó al modelo a llegar a respuestas ligeramente más precisas, según el artículo.

En 2025, Meta, Google y Microsoft planean invertir cientos de miles de millones de dólares en infraestructura de AI, parte de los cuales irá a entrenar modelos de AI de próxima generación. Ese nivel de inversión aún puede ser necesario para avanzar en la innovación de AI. La destilación ha demostrado ser un buen método para recrear de manera económica las capacidades de un modelo de AI, pero no crea nuevos modelos de AI que sean significativamente mejores que los disponibles hoy.

Esta entrada está licenciada bajo CC BY 4.0 por el autor.