Na quarta -feira, a Wikimedia Deutschland anunciou um novo banco de dados que tornará a riqueza de conhecimento da Wikipedia mais acessível aos modelos de IA.
Chamada de projeto de incorporação do Wikidata, o sistema aplica uma pesquisa semântica baseada em vetores-uma técnica que ajuda os computadores a entender o significado e as relações entre as palavras-com os dados existentes sobre a Wikipedia e suas plataformas irmãs, composta por quase 120 milhões de entradas.
Combinado com o novo suporte ao Mannequin Context Protocol (MCP), um padrão que ajuda os sistemas de IA a se comunicarem com as fontes de dados, o projeto torna os dados mais acessíveis às consultas de linguagem pure da LLMS.
O projeto foi realizado pela filial alemã da Wikimedia em colaboração com a empresa de pesquisa neural Jina.ai e DataStax, uma empresa de dados de treinamento em tempo actual de propriedade da IBM.
O Wikidata oferece dados legíveis por máquina das propriedades da Wikimedia por anos, mas as ferramentas pré-existentes permitiram pesquisas de palavras-chave e consultas SPARQL, um idioma de consulta especializado. O novo sistema funcionará melhor com os sistemas de geração de recuperação de recuperação (RAG) que permitem que os modelos de IA puxem informações externas, dando aos desenvolvedores an opportunity de fundamentar seus modelos em conhecimento verificado pelos editores da Wikipedia.
Os dados também são estruturados para fornecer contexto semântico essential. Consultando o banco de dados para A palavra “cientista”. Por exemplo, produzirá listas de importantes cientistas nucleares e cientistas que trabalharam na Bell Labs. Há também traduções da palavra “cientista” em diferentes idiomas, uma imagem de cientistas com limpeza da Wikimedia e extrapolações para conceitos relacionados como “pesquisador” e “acadêmico”.
O banco de dados é Acessível publicamente em ferramentas. Wikidata também está hospedando um webinar para desenvolvedores interessados em 9 de outubro.
Evento do TechCrunch
São Francisco
|
27-29 de outubro de 2025
O novo projeto ocorre quando os desenvolvedores de IA estão buscando fontes de dados de alta qualidade que podem ser usadas para ajustar os modelos. Os próprios sistemas de treinamento tornaram -se mais sofisticados – geralmente montados como ambientes de treinamento complexos, em vez de conjuntos de dados simples – mas ainda exigem dados estreitamente com curadoria para funcionar bem. Para implantações que requerem alta precisão, a necessidade de dados confiáveis é particularmente urgente e, embora alguns possam olhar para baixo na Wikipedia, seus dados são significativamente mais orientados para fatos do que os conjuntos de dados captadores como o rastreamento comumque é uma enorme coleção de páginas da net raspadas pela Web.
Em alguns casos, o esforço para dados de alta qualidade pode ter consequências caras para os laboratórios de IA. Em agosto, o Antrópico se ofereceu para resolver um processo com um grupo de autores cujos trabalhos foram usados como materials de treinamento, concordando em pagar US $ 1,5 bilhão para encerrar quaisquer reivindicações de irregularidades.
Em comunicado à imprensa, o gerente de projeto da Wikidata AI, Philippe Saadé, enfatizou a independência de seu projeto dos principais laboratórios de IA ou grandes empresas de tecnologia. “Este lançamento de incorporação do projeto mostra que a IA poderosa não precisa ser controlada por um punhado de empresas”, disse Saadé a repórteres. “Pode ser aberto, colaborativo e construído para servir a todos.”