Nuevo proyecto hace que los datos de Wikipedia sean más accesibles para la inteligencia artificial.
Créditos de la imagen:Wikimedia Commons (se abre en una nueva ventana)
El miércoles, Wikimedia Deutschland anunció una nueva base de datos que hará que el vasto conocimiento de Wikipedia sea más accesible para los modelos de IA.
Llamada el Proyecto de Incrustación de Wikidata, el sistema aplica una búsqueda semántica basada en vectores — una técnica que ayuda a los computadoras a entender el significado y las relaciones entre las palabras — a los datos existentes en Wikipedia y sus plataformas hermanas, que consisten en casi 120 millones de entradas.
Combinado con el nuevo soporte para el Protocolo de Contexto de Modelo (MCP), un estándar que ayuda a los sistemas de IA a comunicarse con las fuentes de datos, el proyecto hace que los datos sean más accesibles para las consultas de lenguaje natural de los LLMs.
El proyecto fue llevado a cabo por la rama alemana de Wikimedia en colaboración con la empresa de búsqueda neuronal Jina.AI y DataStax, una empresa de datos de entrenamiento en tiempo real propiedad de IBM.
Wikidata ha ofrecido datos legibles por máquinas de las propiedades de Wikimedia durante años, pero las herramientas existentes solo permitían búsquedas por palabras clave y consultas SPARQL, un lenguaje de consulta especializado. El nuevo sistema funcionará mejor con los sistemas de generación aumentada por recuperación (RAG) que permiten a los modelos de IA extraer información externa, dando a los desarrolladores la oportunidad de fundamentar sus modelos en el conocimiento verificado por los editores de Wikipedia.
Los datos también están estructurados para proporcionar contexto semántico crucial. Consultar la base de datos para la palabra “científico”, por ejemplo, producirá listas de científicos prominentes en el campo nuclear así como científicos que trabajaron en Bell Labs. También hay traducciones de la palabra “científico” a diferentes idiomas, una imagen de Wikimedia de científicos en el trabajo y extrapolaciones a conceptos relacionados como “investigador” y “académico”.
La base de datos está disponible públicamente en Toolforge. Wikidata también está organizando un webinar para desarrolladores interesados el 9 de octubre.
El nuevo proyecto llega en un momento en que los desarrolladores de IA están buscando desesperadamente fuentes de datos de alta calidad que puedan utilizar para afinar sus modelos. Los sistemas de entrenamiento mismos se han vuelto más sofisticados — a menudo ensamblados como entornos de entrenamiento complejos en lugar de conjuntos de datos simples — pero aún requieren datos cuidadosamente curados para funcionar bien. Para las implementaciones que requieren alta precisión, la necesidad de datos fiables es especialmente urgente, y aunque algunos puedan menospreciar Wikipedia, sus datos son significativamente más orientados a los hechos que los conjuntos de datos de captura general como el Common Crawl, que es una gran colección de páginas web raspadas de todo el internet.
En algunos casos, la búsqueda de datos de alta calidad puede tener consecuencias costosas para los laboratorios de IA. En agosto, Anthropic ofreció a un grupo de autores que sus obras habían sido utilizadas como material de entrenamiento para llegar a un acuerdo con un litigio, pagando $1.5 mil millones para poner fin a cualquier reclamación de mala conducta.
En una declaración a la prensa, el director del proyecto de IA de Wikidata, Philippe Saadé, subrayó la independencia del proyecto de grandes laboratorios de IA o grandes empresas tecnológicas. “Este lanzamiento del Proyecto de Incrustación muestra que el poder de la IA no tiene que estar controlado por un puñado de empresas,” dijo Saadé a los periodistas. “Puede ser abierto, colaborativo y construido para servir a todos.”
