Tensormesh obtiene $4.5M para extraer más inferencias de las cargas de servidores de AI.
imagen de una mano humanoide extendiéndose hacia una mano humana
Con el auge de la infraestructura de AI alcanzando proporciones desmesuradas, hay más presión que nunca para extraer el máximo rendimiento de los GPUs disponibles. Y para los investigadores con experiencia en una técnica específica, es un momento excelente para obtener financiamiento.
Esa es parte del motor detrás de Tensormesh, que salió de la fase de desarrollo esta semana con $4.5 millones en financiamiento inicial. La inversión fue liderada por Laude Ventures, con financiamiento adicional de ángeles de Michael Franklin, pionero en bases de datos.
Tensormesh está utilizando el dinero para desarrollar una versión comercial del utilitario de código abierto LMCache, lanzado y mantenido por el cofundador de Tensormesh, Yihua Cheng. Utilizado correctamente, LMCache puede reducir los costos de inferencia hasta en diez veces — un poder que lo ha convertido en un componente esencial en las implementaciones de código abierto y ha atraído integraciones de grandes empresas como Google y Nvidia. Ahora, Tensormesh planea convertir esa reputación académica en un negocio viable.
El corazón del sistema de caché de clave-valor (o KV cache), un sistema de memoria utilizado para procesar entradas complejas de manera más eficiente al condensarlas en sus valores clave. En arquitecturas tradicionales, el KV cache se descarta al final de cada consulta — pero el CEO de TensorMesh, Juchen Jiang, argumenta que esto es una fuente enorme de ineficiencia.
“Es como tener un analista muy inteligente que lee toda la data, pero que olvida lo que ha aprendido después de cada pregunta,” dice el cofundador de Tensormesh, Junchen Jiang.
En lugar de descartar ese caché, los sistemas de Tensormesh lo mantienen, permitiendo que se reutilice cuando el modelo ejecuta un proceso similar en una consulta separada. Dado que la memoria de GPU es tan preciada, esto puede significar distribuir la data en varias capas de almacenamiento, pero el premio es un poder de inferencia significativamente mayor para la misma carga del servidor.
El cambio es especialmente poderoso para las interfaces de chat, ya que los modelos necesitan referirse continuamente al registro de chat en crecimiento a medida que avanza la conversación. Los sistemas agente también tienen un problema similar, con un registro en crecimiento de acciones y objetivos.
En teoría, estos son cambios que las empresas de AI pueden implementar por sí mismas — pero la complejidad técnica hace que sea una tarea abrumadora. Dado el trabajo de investigación del equipo de Tensormesh en el proceso y la complejidad del detalle en sí, la empresa apuesta a que habrá mucha demanda por un producto listo para usar.
“Mantener el KV cache en un sistema de almacenamiento secundario y reutilizarlo de manera eficiente sin ralentizar todo el sistema es un problema muy desafiante,” dice Jiang. “Hemos visto a la gente contratar a 20 ingenieros y pasar tres o cuatro meses construyendo un sistema así. O pueden usar nuestro producto y hacerlo de manera muy eficiente.”
