Recentemente, tem havido muito alarido sobre a ideia de que os grandes modelos de raciocínio (LRM) são incapazes de pensar. Isto se deve principalmente a um artigo de pesquisa publicado pela Apple, "A Ilusão do Pensamento" A Apple argumenta que os LRMs não devem ser capazes de pensar; em vez disso, eles apenas realizam a correspondência de padrões. A evidência fornecida é que os LRMs com raciocínio de cadeia de pensamento (CoT) são incapazes de continuar o cálculo usando um algoritmo predefinido à medida que o problema cresce.
Este é um argumento fundamentalmente falho. Se você perguntar a um ser humano que já conhece o algoritmo para resolver o problema da Torre de Hanói para resolver um problema da Torre de Hanói com vinte discos, por exemplo, ele ou ela quase certamente não conseguirá fazê-lo. Por essa lógica, devemos concluir que os humanos também não conseguem pensar. No entanto, este argumento apenas aponta para a ideia de que não há provas de que os LRMs não possam pensar. Isto por si só certamente não significa que os LRMs possam pensar – apenas que não podemos ter a certeza de que não o fazem.
Neste artigo, farei uma afirmação mais ousada: é quase certo que os LRMs podem pensar. Digo “quase” porque há sempre a possibilidade de que novas pesquisas nos surpreendam. Mas acho que meu argumento é bastante conclusivo.
O que está pensando?
Antes de tentarmos compreender se os LRMs podem pensar, precisamos de definir o que queremos dizer com pensar. Mas primeiro, temos que ter certeza de que os humanos podem pensar de acordo com a definição. Consideraremos apenas o pensamento em relação à resolução de problemas, que é motivo de controvérsia.
1. Representação do problema (lobos frontal e parietal)
Quando você pensa sobre um problema, o processo envolve o córtex pré-frontal. Esta região é responsável pela memória de trabalho, atenção e funções executivas – capacidades que permitem manter o problema em mente, dividi-lo em subcomponentes e definir metas. Seu córtex parietal ajuda a codificar a estrutura simbólica para problemas matemáticos ou de quebra-cabeças.
2. Simulação psychological (memória morking e fala inside)
Isso tem dois componentes: um é um circuito auditivo que permite que você fale sozinho – muito semelhante à geração CoT. A outra são as imagens visuais, que permitem manipular objetos visualmente. A geometria period tão importante para navegar no mundo que desenvolvemos capacidades especializadas para ela. A parte auditiva está ligada à área de Broca e ao córtex auditivo, ambos reaproveitados de centros de linguagem. O córtex visible e as áreas parietais controlam principalmente o componente visible.
3. Correspondência e recuperação de padrões (hipocampo e lobos temporais)
Essas ações dependem de experiências passadas e do conhecimento armazenado na memória de longo prazo:
-
O hipocampo ajuda a recuperar memórias e fatos relacionados.
-
O Lobo temporal traz conhecimento semântico – significados, regras, categorias.
Isso é semelhante a como as redes neurais dependem de seu treinamento para processar a tarefa.
4. Monitoramento e avaliação (Córtex Cingulado Anterior)
Nosso córtex cingulado anterior (ACC) monitora erros, conflitos ou impasses – é onde você percebe contradições ou becos sem saída. Este processo é essencialmente baseado na correspondência de padrões de experiências anteriores.
5. Perception ou reenquadramento (rede de modo padrão e hemisfério direito)
Quando você está preso, seu cérebro pode mudar para modo padrão — uma rede mais descontraída e dirigida internamente. É quando você dá um passo para trás, deixa de lado o fio atual e às vezes ‘de repente’ vê um novo ângulo (o clássico momento “aha!”).
Isto é semelhante a como DeepSeek-R1 foi treinado para o raciocínio CoT sem ter exemplos CoT em seus dados de treinamento. Lembre-se de que o cérebro aprende continuamente à medida que processa dados e resolve problemas.
Em contraste, LRMs não têm permissão para alterar com base no suggestions do mundo actual durante a previsão ou geração. Mas com o treinamento CoT do DeepSeek-R1, aprender fez acontecer enquanto tentava resolver os problemas – essencialmente atualizando enquanto raciocinava.
Semelhanças entre o raciocínio CoT e o pensamento biológico
O LRM não possui todas as faculdades mencionadas acima. Por exemplo, é muito improvável que um LRM faça muito raciocínio visible em seu circuito, embora um pouco possa acontecer. Mas certamente não gera imagens intermediárias na geração CoT.
A maioria dos humanos consegue criar modelos espaciais mentalmente para resolver problemas. Isto significa que podemos concluir que os LRMs não conseguem pensar? Eu discordaria. Alguns humanos também acham difícil formar modelos espaciais dos conceitos sobre os quais pensam. Esta condição é chamada afantasia. Pessoas com essa condição podem pensar muito bem. Na verdade, eles vivem a vida como se não lhes faltasse nenhuma habilidade. Muitos deles são realmente ótimos em raciocínio simbólico e muito bons em matemática – muitas vezes o suficiente para compensar sua falta de raciocínio visible. Poderíamos esperar que nossos modelos de redes neurais também fossem capazes de contornar essa limitação.
Se adotarmos uma visão mais abstrata do processo de pensamento humano descrito anteriormente, poderemos ver principalmente o seguinte envolvido:
1. A correspondência de padrões é usada para relembrar experiências aprendidas, representar problemas e monitorar e avaliar cadeias de pensamento.
2. A memória de trabalho serve para armazenar todas as etapas intermediárias.
3. A busca de retrocesso conclui que o CoT não vai a lugar nenhum e retrocede até algum ponto razoável.
A correspondência de padrões em um LRM vem do seu treinamento. O objetivo do treinamento é aprender o conhecimento do mundo e os padrões para processar esse conhecimento de forma eficaz. Como um LRM é uma rede em camadas, toda a memória de trabalho precisa caber em uma camada. Os pesos armazenam o conhecimento do mundo e os padrões a seguir, enquanto o processamento acontece entre as camadas usando os padrões aprendidos armazenados como parâmetros do modelo.
Observe que mesmo no CoT, todo o texto — incluindo a entrada, o CoT e parte da saída já gerada — deve caber em cada camada. A memória de trabalho é apenas uma camada (no caso do mecanismo de atenção, inclui o cache KV).
CoT é, na verdade, muito semelhante ao que fazemos quando falamos sozinhos (o que acontece quase sempre). Quase sempre verbalizamos nossos pensamentos, e o mesmo acontece com um raciocinador do CoT.
Há também boas evidências de que o raciocinador do CoT pode retroceder quando uma determinada linha de raciocínio parece fútil. Na verdade, foi isso que os pesquisadores da Apple viram quando tentaram pedir aos LRMs que resolvessem problemas maiores de quebra-cabeças simples. Os LRMs reconheceram corretamente que tentar resolver os quebra-cabeças diretamente não caberia em sua memória de trabalho, então tentaram descobrir atalhos melhores, assim como um humano faria. Isto é ainda mais uma prova de que os LRMs são pensadores, e não apenas seguidores cegos de padrões predefinidos.
Mas por que um preditor do próximo token aprenderia a pensar?
Redes neurais de tamanho suficiente podem aprender qualquer computação, incluindo pensamento. Mas um sistema de previsão da próxima palavra também pode aprender a pensar. Deixe-me elaborar.
Uma ideia geral é que os LRMs não conseguem pensar porque, no closing das contas, estão apenas prevendo o próximo token; é apenas um ‘preenchimento automático glorificado’. Esta visão é fundamentalmente incorreta – não que seja um ‘autocompletar’, mas que um ‘autocompletar’ não exact pensar. Na verdade, a previsão da próxima palavra está longe de ser uma representação limitada do pensamento. Pelo contrário, é a forma mais geral de representação do conhecimento que alguém pode esperar. Deixe-me explicar.
Sempre que queremos representar algum conhecimento, precisamos de uma linguagem ou de um sistema de simbolismo para fazê-lo. Existem diferentes linguagens formais que são muito precisas em termos do que podem expressar. No entanto, tais linguagens são fundamentalmente limitadas nos tipos de conhecimento que podem representar.
Por exemplo, a lógica de predicados de primeira ordem não pode representar propriedades de todos os predicados que satisfazem uma determinada propriedade, porque não permite predicados sobre predicados.
É claro que existem cálculos de predicados de ordem superior que podem representar predicados em predicados em profundidades arbitrárias. Mas mesmo eles não conseguem expressar ideias que carecem de precisão ou que sejam de natureza abstrata.
A linguagem pure, entretanto, é completa em poder expressivo – você pode descrever qualquer conceito em qualquer nível de detalhe ou abstração. Na verdade, você pode até descrever conceitos sobre linguagem pure usando a própria linguagem pure. Isso o torna um forte candidato à representação do conhecimento.
O desafio, claro, é que esta riqueza expressiva dificulta o processamento da informação codificada em linguagem pure. Mas não precisamos necessariamente entender como fazer isso manualmente — podemos simplesmente programar a máquina usando dados, por meio de um processo chamado treinamento.
Uma máquina de previsão do próximo token calcula essencialmente uma distribuição de probabilidade sobre o próximo token, dado um contexto de tokens anteriores. Qualquer máquina que pretenda calcular esta probabilidade com precisão deve, de alguma forma, representar o conhecimento mundial.
Um exemplo simples: considere a frase incompleta, "O pico da montanha mais alta do mundo é o Monte …" — para prever a próxima palavra como Everest, o modelo deve ter esse conhecimento armazenado em algum lugar. Se a tarefa exigir que o modelo calcule a resposta ou resolva um quebra-cabeça, o preditor do próximo token precisará gerar tokens CoT para levar a lógica adiante.
Isso implica que, mesmo prevendo um token por vez, o modelo deve representar internamente pelo menos os próximos tokens em sua memória de trabalho — o suficiente para garantir que ele permaneça no caminho lógico.
Se você pensar bem, os humanos também prevêem o próximo sinal – seja durante a fala ou quando pensam usando a voz inside. Um sistema de preenchimento automático perfeito que sempre produza os tokens corretos e produza respostas corretas teria que ser onisciente. É claro que nunca chegaremos a esse ponto — porque nem todas as respostas são computáveis.
Porém, um modelo parametrizado que pode representar o conhecimento ajustando seus parâmetros, e que pode aprender por meio de dados e reforço, certamente pode aprender a pensar.
Produz os efeitos do pensamento?
No closing das contas, o teste closing do pensamento é a capacidade de um sistema de resolver problemas que exigem reflexão. Se um sistema pode responder a questões anteriormente invisíveis que exigem algum nível de raciocínio, deve ter aprendido a pensar – ou pelo menos a raciocinar – o caminho para a resposta.
Sabemos que os LRMs proprietários funcionam muito bem em determinados benchmarks de raciocínio. No entanto, como existe a possibilidade de que alguns desses modelos tenham sido ajustados em conjuntos de testes de benchmark através de um backdoor, focaremos apenas em modelos de código aberto por justiça e transparência.
Nós os avaliamos usando os seguintes benchmarks:
Como se pode ver, em alguns benchmarks, os LRMs são capazes de resolver um número significativo de questões baseadas em lógica. Embora seja verdade que em muitos casos ainda ficam atrás do desempenho humano, é importante notar que a base humana muitas vezes provém de indivíduos treinados especificamente nesses parâmetros. Na verdade, em certos casos, os LRMs superam a média dos humanos não treinados.
Conclusão
Com base nos resultados do benchmark, a notável semelhança entre o raciocínio CoT e o raciocínio biológico, e o entendimento teórico de que qualquer sistema com capacidade representacional suficiente, dados de treinamento suficientes e poder computacional adequado pode executar qualquer tarefa computável – os LRMs atendem a esses critérios em uma extensão considerável.
É, portanto, razoável concluir que os LRMs quase certamente possuem a capacidade de pensar.
Debasish Ray Chawdhuri é engenheiro principal sênior da Talentica Software e um Ph.D. candidato em criptografia no IIT Bombay.
Leia mais do nosso escritores convidados. Ou considere enviar sua própria postagem! Veja nosso diretrizes aqui.












