El miércoles, Wikimedia Deutschland anunció una nueva base de datos que hará que la riqueza de conocimiento de Wikipedia sea más accesible para los modelos de IA.

Llamado el proyecto de incrustación de Wikidata, el sistema aplica una búsqueda semántica basada en vectores, una técnica que ayuda a las computadoras a comprender el significado y las relaciones entre las palabras, a los datos existentes sobre Wikipedia y sus plataformas hermanas, que consta de casi 120 millones de entradas.

Combinado con el nuevo soporte para el Protocolo de contexto del modelo (MCP), un estándar que ayuda a los sistemas de IA a comunicarse con fuentes de datos, el proyecto hace que los datos sean más accesibles para consultas de lenguaje natural de LLM.

El proyecto fue realizado por la sucursal alemana de Wikimedia en colaboración disadvantage la empresa de búsqueda neuronal Jina.ai y DataStax, una compañía de datos de capacitación en tiempo actual propiedad de IBM.

Wikidata ha ofrecido datos legibles por máquina de las propiedades de Wikimedia durante años, pero las herramientas preexistentes solo permitieron búsquedas de palabras clave y consultas SPARQL, un lenguaje de consulta especializado. El nuevo sistema funcionará mejor disadvantage los sistemas de generación (RAG) de recuperación (RAG) que permiten a los modelos de IA atraer información externa, lo que brinda a los desarrolladores la oportunidad de fundamentar sus modelos en el conocimiento verificados por los editores de Wikipedia.

Los datos también están estructurados para proporcionar un contexto semántico vital. Consultando la base de datos para La palabra “científico” Por ejemplo, producirá listas de destacados científicos nucleares, así como científicos que trabajaron en Bell Labs. También hay traducciones de la palabra “científico” en diferentes idiomas, una imagen de científicos limpiados por Wikimedia en el trabajo y extrapolaciones a conceptos relacionados como “investigador” y “erudito”.

La base de datos es Accesible públicamente en Toolforge Wikidata también está alojando Un seminario internet para desarrolladores interesados el 9 de octubre.

Evento de TechCrunch

San Francisco | 27 – 29 de octubre de 2025

El nuevo proyecto se produce cuando los desarrolladores de IA están luchando por fuentes de datos de alta calidad que pueden usarse para ajustar los modelos. Los sistemas de entrenamiento en sí se han vuelto más sofisticados, a menudo ensamblados como entornos de entrenamiento complejos en lugar de conjuntos de datos simples, pero aún requieren datos muy curados para funcionar bien. Para las implementaciones que requieren una alta accuracy, la necesidad de datos confiables es particularmente urgente, y aunque algunos podrían despreciar a Wikipedia, sus datos están significativamente más orientados el rastreo común que es una colección masiva de páginas web raspadas de todo Internet.

En algunos casos, el impulso para los datos de alta calidad puede tener consecuencias costosas para los laboratorios de IA. En agosto, Anthrope ofreció resolver una demanda disadvantage un grupo de autores cuyas obras se habían utilizado como material de capacitación, acordando pagar $ 1 5 mil millones para poner fin a cualquier reclamo de irregularidades.

En una declaración a la prensa, el gerente de proyectos de Wikidata AI, Philippe Saadé, enfatizó la independencia de su proyecto de los principales laboratorios de IA o grandes compañías tecnológicas. “Este lanzamiento del proyecto de incrustación muestra que la poderosa IA no tiene que ser controlada por un puñado de compañías”, dijo Saadé a los periodistas. “Puede ser abierto, colaborativo y construido para servir a todos”.

Fuente