Siga ZDNet: Adicione -nos como uma fonte preferida no Google.
As principais toca de Zdnet
- Os desenvolvedores de IA estão tentando equilibrar o utilitário de modelos com a privacidade do usuário.
- Novas pesquisas do Google sugerem uma possível solução.
- Os resultados são promissores, mas muito trabalho ainda precisa ser feito.
Os desenvolvedores de IA já enfrentam um dilema: quanto mais dados de treinamento você alimenta um modelo de idioma grande (LLM), mais fluente e humano serão sua saída. No entanto, ao mesmo tempo, você corre o risco de incluir informações pessoais sensíveis nesse conjunto de dados, que o modelo poderia republicar literalmente, levando a grandes compromissos de segurança para os indivíduos afetados e prejudiciais os escândalos de relações públicas para os desenvolvedores.
Como um utilitário de equilíbrio com privacidade?
Além disso: sua IA generativa protege sua privacidade? Estudo os classifica melhor para o pior
Novas pesquisas do Google afirmam ter encontrado uma solução – uma estrutura para a construção de LLMs que otimizarão a privacidade do usuário sem grandes degradações no desempenho da IA.
Na semana passada, uma equipe de pesquisadores do Google Analysis e Google Deepmind Vaultgemma reveladoum LLM projetado para gerar saídas de alta qualidade sem memorizar seus dados de treinamento literalmente. O resultado: informações confidenciais que o transformam no conjunto de dados de treinamento não serão republicadas.
Ruído digital
O principal ingrediente por trás do Vaultgemma é uma estrutura matemática conhecida como privacidade diferencial (DP), que é essencialmente ruído digital que obtém a capacidade do modelo de memorizar perfeitamente as informações encontradas em seus dados de treinamento.
Fundamentalmente, os pesquisadores incorporaram o DP no nível das sequências de tokens. Isso significa que, no nível mais elementary, o Vaultgemma não será capaz de memorizar ou reproduzir perfeitamente os detalhes sobre os quais foi treinado.
Além disso: 4 maneiras de economizar dinheiro com minhas assinaturas de ferramentas de IA favoritas – e você também pode
“Informalmente falando, porque fornecemos proteção no nível da sequência, se as informações relacionadas a qualquer fato ou inferência (potencialmente privado) ocorrerem em uma única sequência, o Vaultgemma essencialmente não sabe esse fato: a resposta a qualquer consulta será estatisticamente semelhante ao resultado de um modelo que nunca é treinado na sequência em questão”. Postagem do blog resumindo suas descobertas.
Havia um equilíbrio delicado para atacar, aqui: os pesquisadores do Google tiveram que adicionar esse ruído digital sem comprometer catastroficamente o desempenho do modelo. Quanto melhor um modelo de IA é capaz de memorizar e, portanto, replicar perfeitamente seus dados de treinamento, melhor ele deve ser executado-pelo menos, assumindo que sua métrica para “melhor” está gerando respostas do tipo humano aos avisos do usuário.
Mas se sua métrica estiver otimizando a privacidade do usuário, o paradigma somente de memorização é um problema, porque a maioria de nós não quer viver em um mundo em que os enormes modelos de IA estão apenas lançando cópias de carbono de nossas informações pessoais que podem ser imprevisivelmente republicadas por esses mesmos modelos.
A nova pesquisa do Google, então, concentrou -se em mapear de maneira abrangente a fórmula supreme para equilibrar a computação, a privacidade e a utilidade de modelos.
Resultados iniciais promissores
Construído sobre a família Gemma 2 de modelos abertos, que o Google estreou em 2024, o VaultGemma atinge apenas 1 bilhão de parâmetros, de acordo com a empresa – um tamanho relativamente insignificante em comparação com os maiores e mais poderosos modelos do mercado, alguns dos quais são relatados como serem construídos com o máximo um trilhão de parâmetros.
No entanto, o Vaultgemma ainda teve um desempenho nos benchmarks-chave aproximadamente a par de alguns modelos mais antigos, incluindo o GPT-2 do OpenAI. Isso sugere que uma estrutura de otimização de utilidade de computação-privacidade pode eventualmente ser uma alternativa viável aos principais modelos proprietários, mesmo que tenha um longo caminho a percorrer antes que ele chegue perto de recuperar o atraso.
Além disso: como as pessoas realmente usam chatgpt vs claude – e o que as diferenças nos dizem
“Esta comparação ilustra que os métodos de treinamento privado de hoje produzem modelos com utilidade comparável à dos modelos não privados de cerca de 5 anos atrás, destacando a lacuna importante que nosso trabalho ajudará a comunidade a fechar sistematicamente”, escreveu o Google na postagem do weblog.
Os pesos do modelo e os métodos de treinamento por trás do Vaultgemma foram publicados em um Trabalho de pesquisa para permitir que a comunidade de IA refine os modelos privados ainda mais. Os pesos também podem ser acessados through Huggingface e Kaggle.