Pesquisadores da Meta FAIR e da Universidade de Edimburgo desenvolveram uma nova técnica que pode prever a correção do raciocínio de um modelo de linguagem grande (LLM) e até mesmo intervir para corrigir seus erros. Chamado Verificação de raciocínio baseada em circuito (CRV), o método olha dentro de um LLM para monitorar seus “circuitos de raciocínio” internos e detectar sinais de erros computacionais à medida que o modelo resolve um problema.
Suas descobertas mostram que o CRV pode detectar erros de raciocínio em LLMs com alta precisão, construindo e observando um gráfico computacional a partir das ativações internas do modelo. Num avanço importante, os investigadores também demonstraram que podem usar esta visão profunda para aplicar intervenções direcionadas que corrijam imediatamente o raciocínio defeituoso de um modelo.
A técnica pode ajudar a resolver um dos grandes desafios da IA: garantir que o raciocínio de um modelo seja fiel e correto. Este poderia ser um passo crítico para a construção de aplicações de IA mais confiáveis para as empresas, onde a confiabilidade é basic.
Investigando o raciocínio em cadeia de pensamento
O raciocínio em cadeia de pensamento (CoT) tem sido um método poderoso para aumentar o desempenho de LLMs em tarefas complexas e tem sido um dos principais ingredientes para o sucesso de modelos de raciocínio como o OpenAI o-series e DeepSeek-R1.
Contudo, apesar do sucesso do CoT, não é totalmente confiável. O próprio processo de raciocínio é muitas vezes falho e diversos estudos mostraram que os tokens CoT gerados por um LLM nem sempre são uma representação fiel de seu processo de raciocínio interno.
As soluções atuais para verificar o CoT enquadram-se em duas categorias principais. As abordagens de “caixa preta” analisam o token ultimate gerado ou as pontuações de confiança de diferentes opções de token. As abordagens de “caixa cinza” vão um passo além, observando o estado interno do modelo usando sondagens simples em suas ativações neurais brutas.
Mas embora esses métodos possam detectar que o estado interno de um modelo está correlacionado com um erro, eles não podem explicar por que o cálculo subjacente falhou. Para aplicações do mundo actual onde a compreensão da causa raiz de uma falha é essential, esta é uma lacuna significativa.
Uma abordagem de caixa branca para verificação
CRV é baseado na ideia de que os modelos executam tarefas usando subgráficos especializados, ou "circuitos," de neurônios que funcionam como algoritmos latentes. Portanto, se o raciocínio do modelo falhar, isso é causado por uma falha na execução de um desses algoritmos. Isso significa que, ao inspecionar o processo computacional subjacente, podemos diagnosticar a causa da falha, semelhante à forma como os desenvolvedores examinam os rastros de execução para depurar software program tradicional.
Para tornar isso possível, os pesquisadores primeiro tornam o LLM alvo interpretável. Eles substituem as camadas densas padrão dos blocos transformadores por camadas treinadas "transcodificadores." Um transcodificador é um componente especializado de aprendizado profundo que força o modelo a representar seus cálculos intermediários não como um vetor denso e ilegível de números, mas como um conjunto esparso e significativo de recursos. Os transcodificadores são semelhantes aos codificadores automáticos esparsos (SAE) utilizados em pesquisas de interpretabilidade mecanicista com a diferença de que também preservam a funcionalidade da rede que emulam. Esta modificação instala efetivamente uma porta de diagnóstico no modelo, permitindo aos pesquisadores observar seu funcionamento interno.
Com este modelo interpretável implementado, o processo CRV se desdobra em algumas etapas. Para cada passo de raciocínio que o modelo executa, o CRV constrói um "gráfico de atribuição" que mapeia o fluxo causal de informações entre os recursos interpretáveis do transcodificador e os tokens que ele está processando. A partir deste gráfico, ele extrai um "impressão digital estrutural" que contém um conjunto de recursos que descrevem as propriedades do gráfico. Finalmente, um modelo de “classificador de diagnóstico” é treinado nessas impressões digitais para prever se a etapa de raciocínio está correta ou não.
No momento da inferência, o classificador monitora as ativações do modelo e fornece suggestions sobre se o traço de raciocínio do modelo está no caminho certo.
Encontrando e corrigindo erros
Os pesquisadores testaram seu método em um Lhama 3.1 8B Modelo de instrução modificado com os transcodificadores, avaliando-o em uma mistura de conjuntos de dados sintéticos (booleanos e aritméticos) e do mundo actual (problemas matemáticos GSM8K). Eles compararam o CRV com um conjunto abrangente de linhas de base de caixa preta e caixa cinza.
Os resultados fornecem forte suporte empírico para a hipótese central: as assinaturas estruturais no traço computacional de uma etapa de raciocínio contêm um sinal verificável de sua correção. O CRV superou consistentemente todos os métodos de linha de base em todos os conjuntos de dados e métricas, demonstrando que uma visão estrutural profunda da computação do modelo é mais poderosa do que a análise de nível superficial.
Curiosamente, a análise revelou que as assinaturas de erro são altamente específicas do domínio. Isto significa que falhas em diferentes tarefas de raciocínio (lógica formal versus cálculo aritmético) se manifestam como padrões computacionais distintos. Um classificador treinado para detectar erros em um domínio não transfere bem para outro, destacando que diferentes tipos de raciocínio dependem de diferentes circuitos internos. Na prática, isso significa que pode ser necessário treinar um classificador separado para cada tarefa (embora o transcodificador permaneça inalterado).
A descoberta mais significativa, contudo, é que estas assinaturas de erro não são apenas correlacionais, mas causais. Como o CRV fornece uma visão transparente da computação, uma falha prevista pode ser rastreada até um componente específico. Em um estudo de caso, o modelo cometeu um erro na ordem de operações. A CRV sinalizou a etapa e identificou que um "multiplicação" recurso estava disparando prematuramente. Os pesquisadores intervieram suprimindo manualmente aquele único recurso, e o modelo imediatamente corrigiu seu caminho e resolveu o problema corretamente.
Este trabalho representa um passo em direção a uma ciência mais rigorosa de interpretabilidade e controle de IA. Como o artigo conclui, “essas descobertas estabelecem o CRV como uma prova de conceito para análise mecanicista, mostrando que a mudança de ativações opacas para uma estrutura computacional interpretável permite uma compreensão causal de como e por que os LLMs falham em raciocinar corretamente”. Para apoiar futuras pesquisas, a equipe planeja divulgar seus conjuntos de dados e transcodificadores treinados ao público.
Por que é importante
Embora o CRV seja uma prova de conceito de investigação, os seus resultados sugerem um futuro significativo para o desenvolvimento da IA. Os modelos de IA aprendem algoritmos internos ou "circuitos," para diferentes tarefas. Mas como esses modelos são opacos, não podemos depurá-los como programas de computador padrão, rastreando bugs em etapas específicas do cálculo. Os gráficos de atribuição são o que temos de mais próximo de um rastreamento de execução, mostrando como uma saída é derivada de etapas intermediárias.
Esta pesquisa sugere que os gráficos de atribuição podem ser a base para uma nova classe de depuradores de modelos de IA. Essas ferramentas permitiriam aos desenvolvedores compreender a causa raiz das falhas, sejam elas dados de treinamento insuficientes ou interferência entre tarefas concorrentes. Isto permitiria mitigações precisas, como o ajuste fino direcionado ou mesmo a edição direta do modelo, em vez de uma reciclagem dispendiosa em grande escala. Eles também poderiam permitir uma intervenção mais eficiente para corrigir erros do modelo durante a inferência.
O sucesso do CRV na detecção e identificação de erros de raciocínio é um sinal encorajador de que tais depuradores podem se tornar realidade. Isto abriria caminho para LLMs mais robustos e agentes autônomos que pudessem lidar com a imprevisibilidade do mundo actual e, assim como os humanos, corrigir o curso quando cometessem erros de raciocínio.
 
             
	