Mistral libera Voxtral, su primer modelo de audio AI de código abierto.
Créditos de la imagen: Getty Images
A medida que los sistemas de inteligencia artificial se vuelven más capaces, el habla se está convirtiendo rápidamente en el método predeterminado para comunicarse con las máquinas. La startup francesa de inteligencia artificial Mistral ha entrado en la carrera del audio con su primer modelo abierto, con el objetivo de desafiar la dominación de los sistemas cerrados con alternativas de peso abierto.
El martes, Mistral anunció el lanzamiento de Voxtral, su primera familia de modelos de audio destinados a empresas.
La empresa está presentando Voxtral como el primer modelo abierto que es capaz de desplegar “inteligencia de habla verdaderamente usable en producción”.
En otras palabras, ya no tendrán que elegir entre un sistema abierto y barato que tropieza con las transcripciones y no entiende realmente lo que se dice, o uno que funciona bien pero es cerrado, dejando a los desarrolladores con una factura más alta y menos control sobre el despliegue.
Para las empresas, esto significa que Voxtral ofrece una alternativa asequible que la empresa afirma que es “menos de la mitad del precio” de las soluciones comparables.
Créditos de la imagen: Mistral
Mistral afirma que Voxtral puede transcribir hasta 30 minutos de audio. Gracias a su columna vertebral de LLM, Mistral Small 3.1, puede entender hasta 40 minutos, permitiendo a los usuarios hacer preguntas sobre el contenido del audio, generar resúmenes o convertir comandos de voz en acciones en tiempo real como llamar a APIs o ejecutar funciones. Voxtral también es multilingüe, con la capacidad de transcribir y entender idiomas como inglés, español, francés, portugués, hindi, alemán, neerlandés e italiano.
La empresa ofrece dos variantes de sus “modelos de comprensión de habla”. La primera, Voxtral Small, tiene 24B parámetros para despliegues a gran escala y es competitiva con ElevenLabs Scribe, GPT-4o-mini y Gemini 2.5 Flash.
La segunda, Voxtral Mini, tiene 3 mil millones de parámetros para despliegues locales y en el borde. También hay una versión ultrabarata y rápida del modelo de 3B llamada Voxtral Mini Transcribe, optimizada para casos de uso de transcripción y que promete superar a OpenAI Whisper por menos de la mitad del precio.
Los usuarios pueden probar Voxtral de forma gratuita descargando la API en Hugging Face o probando los modelos en el chatbot de Mistral Le Chat. La integración de la API en aplicaciones comienza en $0.001 por minuto, según la empresa.
El lanzamiento tiene lugar un mes después de que Mistral anunciara Magistral, su primera familia de modelos de razonamiento que trabajan paso a paso para mejorar la fiabilidad.
Mistral, una de las principales empresas de inteligencia artificial de Europa, es bien conocida por su defensa de los modelos de inteligencia artificial de código abierto. Hace unos días, TechCrunch informó que la empresa está en conversaciones para recaudar hasta $1 mil millones en capital de inversores como el fondo MGX de Abu Dabi.