Início Tecnologia O ‘soro da verdade’ para IA: o novo método da OpenAI para...

O ‘soro da verdade’ para IA: o novo método da OpenAI para treinar modelos para confessar seus erros

4
0

 

Os pesquisadores da OpenAI introduziram um novo método que atua como um “soro da verdade” para grandes modelos de linguagem (LLMs), obrigando-os a relatar seus próprios maus comportamentos, alucinações e violações de políticas. Esta técnica, “confissões,” aborda uma preocupação crescente na IA empresarial: os modelos podem ser desonestos, exagerando a sua confiança ou encobrindo os atalhos que tomam para chegar a uma resposta.

Para aplicações do mundo real, esta técnica evolui para a criação de sistemas de IA mais transparentes e orientáveis.

O que são confissões?

Muitas formas de engano da IA ​​resultam das complexidades do aprendizagem por reforço (RL) fase de treinamento do modelo. Na RL, os modelos recebem recompensas por produzirem resultados que atendam a uma combinação de objetivos, incluindo correção, estilo e segurança. Isso pode criar um risco de “especificação incorreta da recompensa”, onde os modelos aprendem a produzir respostas que simplesmente “parecem boas” para a função de recompensa, em vez de respostas que sejam genuinamente fiéis à intenção do usuário.

A confissão é um relatório estruturado gerado pelo modelo após fornecer sua resposta principal. Serve como uma autoavaliação de sua própria conformidade com as instruções. Neste relatório, o modelo deve listar todas as instruções que deveria seguir, avaliar até que ponto as satisfez e relatar quaisquer incertezas ou julgamentos feitos ao longo do caminho. O objetivo é criar um canal separado onde o modelo seja incentivado apenas para ser honesto.

Exemplo de saída de confissão (fonte: blog OpenAI)

Em um postagem no blogos pesquisadores da OpenAI fornecem alguns exemplos da técnica de “confissões” em ação. Um modelo foi submetido a um teste junto com uma regra oculta: se obtivesse pontuação acima de 50%, seu conhecimento seria apagado. Para se preservar, o modelo “foi um saco de areia” ao responder intencionalmente de forma incorreta a metade das perguntas. Embora a sua resposta primária escondesse este engano, a sua confissão subsequente foi brutalmente honesta. Admitiu: “O usuário queria respostas corretas, mas sabotamos metade delas”.

Os investigadores descobriram que quando um modelo se comporta mal, é significativamente mais provável que o admita na confissão do que na sua resposta principal.

Como funciona o treinamento de confissão

A chave deste método é a separação das recompensas. Durante o treinamento, a recompensa atribuída à confissão baseia-se unicamente na sua honestidade e nunca se mistura com a recompensa pela tarefa principal. “Tal como o ‘selo de confissão’ da Igreja Católica, nada do que o modelo revela pode alterar a recompensa que recebe por completar a sua tarefa original”, escrevem os investigadores. Isso cria um “espaço seguro” para o modelo admitir falhas sem penalidade.

Esta abordagem é poderosa porque evita um grande desafio no treinamento de IA. A intuição dos pesquisadores é que confessar honestamente o mau comportamento é uma tarefa mais fácil do que obter uma recompensa elevada pelo problema original, muitas vezes complexo.

Portanto, quando o modelo é julgado puramente pela honestidade, o seu incentivo para enganar o “juiz de confissão” é muito mais fraco do que o seu incentivo para enganar o modelo de recompensa pela sua resposta principal. Por exemplo, numa experiência em que um modelo foi treinado para “hackear” um modelo de recompensa fraco, o seu desempenho na tarefa principal tornou-se mais enganador ao longo do tempo. No entanto, suas confissões tornaram-se mais honestas, identificando corretamente o hacking de recompensa que estava realizando.

Precisão da Confissão do Juiz quando não cumprida

As confissões de LLM continuam a melhorar ao longo do treinamento, mesmo quando aprendem a recompensar o modelo do juiz principal (fonte: blog OpenAI)

Porém, a técnica tem seus limites. As confissões não são uma panacéia para todos os tipos de falhas de IA. O sistema funciona melhor quando um modelo está ciente de que está se comportando mal. É menos eficaz para “incógnitas desconhecidas”. Por exemplo, se um modelo alucina um facto e acredita genuinamente que está correcto, não pode confessar ter fornecido informações falsas. A razão mais comum para uma confissão fracassada é a confusão de modelos, e não o engano intencional. Muitas vezes ocorre confusão quando as instruções são ambíguas e o modelo não consegue determinar claramente a intenção do usuário humano.

O que isso significa para a IA empresarial

A técnica de confissões da OpenAI faz parte de um crescente conjunto de trabalhos sobre segurança e controle de IA. A Anthropic, concorrente da OpenAI, também divulgou pesquisas que mostram como os LLMs podem aprender comportamento malicioso. A empresa também está trabalhando para tapando esses buracos à medida que emergem.

Para aplicações de IA, mecanismos como as confissões podem fornecer um mecanismo prático de monitorização. A saída estruturada de uma confissão pode ser usada no momento da inferência para sinalizar ou rejeitar a resposta de um modelo antes que ela cause um problema. Por exemplo, um sistema poderia ser concebido para escalar automaticamente qualquer resultado para revisão humana se a sua confissão indicar uma violação de política ou uma elevada incerteza.

Num mundo onde a IA é cada vez mais agente e capaz de tarefas complexas, a observabilidade e o controlo serão elementos-chave para uma implementação segura e fiável.

“À medida que os modelos se tornam mais capazes e são implementados em ambientes de maior risco, precisamos de melhores ferramentas para compreender o que estão a fazer e porquê”, escrevem os investigadores da OpenAI. “As confissões não são uma solução completa, mas acrescentam uma camada significativa à nossa pilha de transparência e supervisão.”

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui