Os pesquisadores da OpenAI introduziram um novo método que atua como um “soro da verdade” para grandes modelos de linguagem (LLMs), obrigando-os a relatar seus próprios maus comportamentos, alucinações e violações de políticas. Esta técnica, “confissões,” aborda uma preocupação crescente na IA empresarial: os modelos podem ser desonestos, exagerando a sua confiança ou encobrindo os atalhos que tomam para chegar a uma resposta.
Para aplicações do mundo real, esta técnica evolui para a criação de sistemas de IA mais transparentes e orientáveis.
O que são confissões?
Muitas formas de engano da IA resultam das complexidades do aprendizagem por reforço (RL) fase de treinamento do modelo. Na RL, os modelos recebem recompensas por produzirem resultados que atendam a uma combinação de objetivos, incluindo correção, estilo e segurança. Isso pode criar um risco de “especificação incorreta da recompensa”, onde os modelos aprendem a produzir respostas que simplesmente “parecem boas” para a função de recompensa, em vez de respostas que sejam genuinamente fiéis à intenção do usuário.
A confissão é um relatório estruturado gerado pelo modelo após fornecer sua resposta principal. Serve como uma autoavaliação de sua própria conformidade com as instruções. Neste relatório, o modelo deve listar todas as instruções que deveria seguir, avaliar até que ponto as satisfez e relatar quaisquer incertezas ou julgamentos feitos ao longo do caminho. O objetivo é criar um canal separado onde o modelo seja incentivado apenas para ser honesto.
Em um postagem no blogos pesquisadores da OpenAI fornecem alguns exemplos da técnica de “confissões” em ação. Um modelo foi submetido a um teste junto com uma regra oculta: se obtivesse pontuação acima de 50%, seu conhecimento seria apagado. Para se preservar, o modelo “foi um saco de areia” ao responder intencionalmente de forma incorreta a metade das perguntas. Embora a sua resposta primária escondesse este engano, a sua confissão subsequente foi brutalmente honesta. Admitiu: “O usuário queria respostas corretas, mas sabotamos metade delas”.
Os investigadores descobriram que quando um modelo se comporta mal, é significativamente mais provável que o admita na confissão do que na sua resposta principal.
Como funciona o treinamento de confissão
A chave deste método é a separação das recompensas. Durante o treinamento, a recompensa atribuída à confissão baseia-se unicamente na sua honestidade e nunca se mistura com a recompensa pela tarefa principal. “Tal como o ‘selo de confissão’ da Igreja Católica, nada do que o modelo revela pode alterar a recompensa que recebe por completar a sua tarefa original”, escrevem os investigadores. Isso cria um “espaço seguro” para o modelo admitir falhas sem penalidade.
Esta abordagem é poderosa porque evita um grande desafio no treinamento de IA. A intuição dos pesquisadores é que confessar honestamente o mau comportamento é uma tarefa mais fácil do que obter uma recompensa elevada pelo problema original, muitas vezes complexo.
Portanto, quando o modelo é julgado puramente pela honestidade, o seu incentivo para enganar o “juiz de confissão” é muito mais fraco do que o seu incentivo para enganar o modelo de recompensa pela sua resposta principal. Por exemplo, numa experiência em que um modelo foi treinado para “hackear” um modelo de recompensa fraco, o seu desempenho na tarefa principal tornou-se mais enganador ao longo do tempo. No entanto, suas confissões tornaram-se mais honestas, identificando corretamente o hacking de recompensa que estava realizando.
Porém, a técnica tem seus limites. As confissões não são uma panacéia para todos os tipos de falhas de IA. O sistema funciona melhor quando um modelo está ciente de que está se comportando mal. É menos eficaz para “incógnitas desconhecidas”. Por exemplo, se um modelo alucina um facto e acredita genuinamente que está correcto, não pode confessar ter fornecido informações falsas. A razão mais comum para uma confissão fracassada é a confusão de modelos, e não o engano intencional. Muitas vezes ocorre confusão quando as instruções são ambíguas e o modelo não consegue determinar claramente a intenção do usuário humano.
O que isso significa para a IA empresarial
A técnica de confissões da OpenAI faz parte de um crescente conjunto de trabalhos sobre segurança e controle de IA. A Anthropic, concorrente da OpenAI, também divulgou pesquisas que mostram como os LLMs podem aprender comportamento malicioso. A empresa também está trabalhando para tapando esses buracos à medida que emergem.
Para aplicações de IA, mecanismos como as confissões podem fornecer um mecanismo prático de monitorização. A saída estruturada de uma confissão pode ser usada no momento da inferência para sinalizar ou rejeitar a resposta de um modelo antes que ela cause um problema. Por exemplo, um sistema poderia ser concebido para escalar automaticamente qualquer resultado para revisão humana se a sua confissão indicar uma violação de política ou uma elevada incerteza.
Num mundo onde a IA é cada vez mais agente e capaz de tarefas complexas, a observabilidade e o controlo serão elementos-chave para uma implementação segura e fiável.
“À medida que os modelos se tornam mais capazes e são implementados em ambientes de maior risco, precisamos de melhores ferramentas para compreender o que estão a fazer e porquê”, escrevem os investigadores da OpenAI. “As confissões não são uma solução completa, mas acrescentam uma camada significativa à nossa pilha de transparência e supervisão.”












