Início Tecnologia ‘Ai Scheming’: o Openai se aproxima de por que os chatbots vão...

‘Ai Scheming’: o Openai se aproxima de por que os chatbots vão mentir intencionalmente e enganar humanos

37
0

Nesse ponto, a maioria das pessoas sabe que os chatbots são capazes de alucinar respostas, inventar fontes e cuspir informações erradas. Mas os chatbots podem estar de maneiras mais humanas, “planejando” para esconder seus verdadeiros objetivos e enganar os humanos que lhes deram instruções. Nova pesquisa da pesquisa OpenAi e Apollo Parece ter descoberto maneiras de diminuir algumas dessas mentiras, mas o fato de estar acontecendo provavelmente deve dar aos usuários uma pausa.

No centro da questão, com a IA que engana intencionalmente um usuário está “desalinhamento” – definido como o que acontece quando uma IA busca uma meta não intencional. Os pesquisadores oferecer Como exemplo disso, “uma IA treinada para ganhar dinheiro poderia aprender a roubar, enquanto o objetivo pretendido period ganhar apenas dinheiro authorized e eticamente”. O esquema é o que acontece quando o modelo tenta esconder o fato de estar desalinhado e os pesquisadores teorizam que o modelo faz isso para se proteger e seus próprios objetivos. Isso é decididamente diferente das alucinações, que um artigo recente publicado pelo OpenAI Sugere é o resultado de modelos serem recompensados ​​mais por adivinhar do que por reconhecer a incerteza.

Para resolver a questão, os pesquisadores colocam os modelos através do que chamam de uma técnica de treinamento anti-esquema conhecida como “alinhamento deliberativo”. O OpenAI explicou que esse método, que funciona com LLMs que podem produzir traços de “cadeia de pensamentos” que mostram como eles funcionam através de consultas, ensina as especificações de segurança do modelo e as faz considerar essas especificações antes de responder. Provavelmente é uma simplificação excessiva dizer que eles basicamente disseram às máquinas para não mentir, mas parece que é um versão um pouco mais complicada disso.

Os resultados foram supostamente bastante positivos. Segundo os pesquisadores, eles observaram uma redução de 30x em “ações secretas” ou tenta ocultar comportamentos específicos de um usuário. Quando aplicado ao modelo O3 do Openai, ele Ações secretas reduzidas De 13% para 0,4% e para O4-mini, caiu de 8,7% para 0,3%. (Nota lateral: UH, 13% parece ser uma frequência bastante alta de engano de uma máquina que deve apenas receber ordens.)

Embora esses números sejam obviamente uma melhoria, eles também não são zero. O problema é que os pesquisadores não descobriram como parar completamente de planejar. E embora eles insistam que o planejamento, no que se refere à maioria dos usos dos modelos de IA, não é grave – isso pode resultar em, digamos, no chatgpt dizendo ao usuário que concluiu uma tarefa, por exemplo – é meio selvagem que eles não podem eliminar a mentira. De fato, os pesquisadores escreveram: “Um grande modo de falha de tentar” treinar “o esquema é simplesmente ensinar o modelo para planejar mais cuidadosamente e secretamente”.

Então, o problema melhorou ou os modelos ficaram melhores em esconder o fato de que estão tentando enganar as pessoas? Os pesquisadores dizem que o problema ficou melhor. Eles não mentiram … certo?

avots