La nueva API de OCR de Mistral convierte cualquier documento PDF en un archivo Markdown listo para AI.

Publicado 06/03/2025

Por TheCodic

3 min de lectura

Los modelos de lenguaje grande funcionan especialmente bien con texto en bruto. Las empresas que desean crear su propio flujo de trabajo de IA saben que se ha vuelto extremadamente importante almacenar y indexar los datos en un formato limpio para que estos datos puedan ser reutilizados para el procesamiento de IA.

Por eso Mistral está lanzando hoy una nueva API para desarrolladores que manejan documentos PDF complejos. Mistral OCR es una API de reconocimiento óptico de caracteres que puede convertir cualquier PDF en un archivo de texto.

Al contrario que la mayoría de las APIs de OCR, Mistral OCR es una API multimodal, lo que significa que puede detectar cuando hay ilustraciones y fotos entremezcladas con bloques de texto. La API de OCR crea cajas delimitadoras alrededor de estos elementos gráficos y los incluye en la salida.

De manera similar, Mistral OCR no solo entrega una gran pared de texto. La salida está formateada en Markdown, un lenguaje de formato que los desarrolladores utilizan para añadir enlaces, encabezados y otros elementos de formato a un archivo de texto plano.

Los modelos de lenguaje grande dependen mucho del Markdown para sus conjuntos de datos de entrenamiento. Cuando utilizas una asistente de IA, como Le Chat de Mistral o ChatGPT de OpenAI, a menudo generan Markdown para crear listas con viñetas, añadir enlaces o poner algunos elementos en negrita. Las aplicaciones de asistente formatean la salida de Markdown en una salida de texto rica.

“A lo largo de los años, las organizaciones han acumulado numerosos documentos, a menudo en formato PDF o de diapositivas, que son inaccesibles para los LLMs, especialmente los sistemas RAG. Con Mistral OCR, nuestros clientes ahora pueden convertir documentos ricos y complejos en contenido legible en todos los idiomas,” dijo Guillaume Lample, cofundador y jefe científico de Mistral.

“Esto es un paso crucial hacia la adopción generalizada de asistentes de IA en empresas que necesitan simplificar el acceso a su vasta documentación interna,” añadió.

Mistral OCR está disponible en la plataforma de API de Mistral o a través de sus socios en la nube (AWS, Azure, Google Cloud Vertex, etc.). Y para las empresas que trabajan con datos clasificados o sensibles, Mistral también ofrece despliegue en local.

Según la empresa de IA de París, Mistral OCR funciona mejor que las APIs de Google, Microsoft y OpenAI. La empresa ha probado su modelo de OCR con documentos complejos que incluyen expresiones matemáticas (formato LaTeX), diseños avanzados o tablas. También se espera que funcione mejor con documentos no en inglés.

Dado que Mistral OCR hace una sola cosa y lo hace bien, la empresa cree que también es más rápida que las opciones disponibles. No es una sorpresa si lo comparas con un modelo de lenguaje grande multimodal como GPT-4o, que también tiene capacidades de OCR.

Mistral también utiliza Mistral OCR para su propio asistente de IA Le Chat. Cuando un usuario sube un archivo PDF, la empresa utiliza Mistral OCR en segundo plano para entender qué contiene el documento antes de procesar el texto.

Los desarrolladores también utilizarán Mistral OCR con un sistema RAG para usar documentos multimodales como entrada en un LLM. Y hay muchas aplicaciones potenciales. Por ejemplo, podría ver a bufetes de abogados usándolo para ayudarlos a revisar grandes volúmenes de documentos.

Novedades

Esta entrada está licenciada bajo CC BY 4.0 por el autor.

Etiquetas populares