Inception raises $50 million to build diffusion models for code and text.
Un grupo de nueve hombres se paran en un balcón soleado.
Con tanto dinero inundando a las startups de IA, es un buen momento para ser un investigador de IA con una idea que probar. Y si la idea es lo suficientemente novedosa, podría ser más fácil obtener los recursos necesarios como una empresa independiente en lugar de dentro de uno de los grandes laboratorios.
Esa es la historia de Inception, una startup que desarrolla modelos de IA basados en difusión que acaba de obtener $50 millones en financiamiento de serie liderado por Menlo Ventures. Andrew Ng y Andrej Karpathy proporcionaron financiamiento adicional de ángel.
El líder del proyecto es el profesor de Stanford Stefano Ermon, cuyo trabajo se centra en los modelos de difusión — que generan salidas a través de refinamiento iterativo en lugar de palabra por palabra. Estos modelos impulsan sistemas de IA basados en imágenes como Stable Diffusion, Midjourney y Sora. Habiendo trabajado en esos sistemas antes de que se volvieran emocionantes con el auge de la IA, Ermon está utilizando Inception para aplicar los mismos modelos a una gama más amplia de tareas.
Junto con el financiamiento, la empresa lanzó una nueva versión de su modelo Mercury, diseñado para el desarrollo de software. Mercury ya se ha integrado en varios herramientas de desarrollo, incluyendo ProxyAI, Buildglare y Kilo Code. Lo más importante, Ermon dice que el enfoque de difusión ayudará a los modelos de Inception a conservar dos de las métricas más importantes: latencia (tiempo de respuesta) y costo computacional.
“Estos modelos de LLM basados en difusión son mucho más rápidos y mucho más eficientes que lo que todo el mundo está construyendo hoy,” dice Ermon. “Es solo un enfoque completamente diferente donde hay mucha innovación que aún puede ser traída a la mesa.”
Para entender la diferencia técnica, es necesario tener un poco de fondo. Los modelos de difusión son estructuralmente diferentes de los modelos de auto-regresión, que dominan los servicios de IA basados en texto. Los modelos de auto-regresión como GPT-5 y Gemini funcionan secuencialmente, predicciendo cada palabra o fragmento de palabra siguiente basado en el material procesado anteriormente. Los modelos de difusión, entrenados para la generación de imágenes, toman un enfoque más holístico, modificando la estructura general de una respuesta de manera incremental hasta que coincida con el resultado deseado.
El convencional es utilizar modelos de auto-regresión para aplicaciones de texto, y ese enfoque ha sido enormemente exitoso para las últimas generaciones de modelos de IA. Pero un creciente cuerpo de investigación sugiere que los modelos de difusión pueden realizar mejor cuando un modelo está procesando grandes cantidades de texto o gestionando restricciones de datos. Según Ermon, esas cualidades se vuelven una ventaja real cuando se realizan operaciones sobre grandes bases de código.
Los modelos de difusión también tienen más flexibilidad en el uso del hardware, una ventaja particularmente importante a medida que se vuelven claras las demandas de infraestructura de la IA. Donde los modelos de auto-regresión tienen que ejecutar operaciones una después de otra, los modelos de difusión pueden procesar muchas operaciones simultáneamente, lo que permite una latencia significativamente menor en tareas complejas.
“Hemos sido probados en más de 1,000 tokens por segundo, que es mucho más alto que cualquier cosa posible con las tecnologías existentes de auto-regresión,” dice Ermon. “Porque nuestra cosa está diseñada para ser paralela. Está diseñada para ser realmente, realmente rápida.”
