Entrada

AI translation tech gets backing from Reddit co-founder’s venture firm.

Image Credits:Palabra

Una startup llamada Palabra AI, que desarrolla un motor de traducción de voz impulsado por inteligencia artificial, se enfrenta a uno de los aspectos más difíciles de enseñar a los modelos de lenguaje grandes (LLMs) a entender múltiples idiomas.

Hoy en día, los LLMs facilitan la conversión de texto de un idioma a otro, pero la traducción de voz no es tan sencilla, según el cofundador de Reddit, Alexis Ohanian.

“La inteligencia artificial puede generar contenido y traducir texto. Pero [la] traducción de voz es un problema único porque requiere el cambio de idioma en tiempo real, y la voz también debe sonar humana,” dijo Ohanian.

Ohanian y su firma de inversiones Seven Seven Six (776) creen que Palabra AI podría ser una solución a ese problema. Por eso, la firma está liderando una ronda pre-semilla de $8.4 millones en la startup. La ronda también contó con la participación de Creator Ventures, así como de inversores individuales, incluyendo a Max Mullen, cofundador de Instacart; Anne Lee Skates, ex socio de a16z; Mehdi Ghissassi, ex jefe de producto de DeepMind; y Namat Bahram.

Seven Seven Six’s Ohanian también destacó que la combinación de ejecución de productos y la experiencia del equipo de Palabra los llevó a invertir.

“Con Palabra, la capa de traducción funciona muy suavemente. La empresa tiene un equipo de investigación en inteligencia artificial de alta calidad que trabaja en voz. Además, la startup ha hecho excelentes elecciones en diseño de productos y calidad de la salida,” añadió.

Palabra fue fundada por Artem Kukharenko y Alexander Kabakov en 2023. Kukharenko, un antiguo ingeniero de aprendizaje automático en Samsung, dijo que ha vivido en diversos países como nómada digital y ha enfrentado problemas con los idiomas. Por eso, quería combinar su experiencia en aprendizaje automático para resolver la traducción en tiempo real.

CEO Artem Kukharenko Image Credits: Palabra

“Muchas otras empresas han intentado resolver el problema de la traducción. Pero cuando combinaron diferentes tecnologías, incluyendo APIs de voz a texto y texto a voz mientras traducían, el número de latencia aumentó, y la traducción no se sintió en tiempo real. Con Palabra, hemos logrado reducir la latencia a 800ms, haciendo que nuestra traducción sea fluida y en tiempo real,” dijo a TechCrunch.

Kukharenko también mencionó que la empresa ha construido una tubería de datos personalizada para facilitar la adición de soporte para un nuevo idioma en cuestión de semanas. Al final de esta tubería, Palabra coloca a un intérprete humano que revisa la calidad de la salida. La startup dijo que su algoritmo también tiene en cuenta diferentes escenarios, como entornos ruidosos e interrupciones.

Palabra AI ofrece productos de traducción tanto para consumidores como para empresas. La empresa ofrece una aplicación de escritorio que funciona con populares aplicaciones de videollamadas, incluyendo Google Meet, Zoom, Discord, Slack y Microsoft Teams. La aplicación puede apoyar la traducción en más de 30 idiomas, lo que significa que puedes escuchar a alguien hablando en su idioma nativo en tu idioma de elección. Esto podría ser útil para llamadas que involucren participantes de diversas nacionalidades.

Image Credits: Palabra

En su sitio web, Palabra dice que su aplicación de escritorio pronto apoyará características de traducción nativa para sitios de contenido como YouTube, Netflix, Twitch y Vimeo.

Recibes 30 minutos de traducción sin interrupciones cada mes. Para un límite más alto, puedes pagar por planes que comienzan en $25 al mes por 60 minutos de traducción en aplicaciones.

La startup ofrece APIs y SDKs a empresas para integrar la traducción en sus productos.

Actualmente, su tecnología está impulsando plataformas de video como Agora para transmisiones en vivo multilingües. Además, proveedores de servicios lingüísticos como GIS Group están utilizando las herramientas de Palabra junto con intérpretes humanos. La empresa dijo que múltiples organizadores de eventos también utilizan su tecnología para proporcionar transmisiones multilingües.

Palabra enfrenta una fuerte competencia en el mercado de la traducción. En el lado del consumidor, startups como Y-Combinator-backed EzDubs están construyendo aplicaciones que funcionan para conversaciones en persona o por llamada. Este año, Google también lanzó traducción en tiempo real para videollamadas en Meet. En el lado empresarial, startups como Dubai-based Camb.AI están construyendo tecnología de traducción para emitir eventos en vivo en múltiples idiomas.

Para destacarse, Palabra está trabajando en un nuevo modelo de predicción de streaming, lo que podría resultar en una reducción drástica de la latencia. También está trabajando en el soporte para la traducción de más de 10,000 streams de audio simultáneos.

Esta entrada está licenciada bajo CC BY 4.0 por el autor.