Um novo artigo de pesquisa publicado discretamente na semana passada descreve um método inovador que permite que grandes modelos de linguagem (LLMs) simulem o comportamento do consumidor humano com uma precisão surpreendente, um desenvolvimento que poderia remodelar o mercado multibilionário indústria de pesquisa de mercado. A técnica promete criar exércitos de consumidores sintéticos que possam fornecer não apenas classificações realistas dos produtos, mas também o raciocínio qualitativo por trás delas, numa escala e velocidade atualmente inatingíveis.
Durante anos, as empresas procuraram utilizar a IA para pesquisas de mercado, mas foram frustradas por uma falha fundamental: quando solicitadas a fornecer uma classificação numérica numa escala de 1 a 5, os LLMs produzem respostas irrealistas e mal distribuídas. Um novo artigo, “LLMs reproduzem a intenção de compra humana por meio da elicitação de similaridade semântica de classificações Likert,” enviado ao servidor de pré-impressão arXiv em 9 de outubro propõe uma solução elegante que contorna totalmente esse problema.
A equipe internacional de pesquisadores, liderada por Benjamin F. Maier, desenvolveu um método que eles chamam classificação de similaridade semântica (SSR). Em vez de pedir um número a um LLM, o SSR solicita ao modelo uma opinião textual rica sobre um produto. Este texto é então convertido em um vetor numérico – um “incorporação” — e a sua semelhança é medida em relação a um conjunto de declarações de referência predefinidas. Por exemplo, uma resposta de “Eu com certeza compraria isso, é exatamente o que estou procurando” estaria semanticamente mais próximo da declaração de referência para um “5” classificação do que à declaração de um “1.”
Os resultados são impressionantes. Testado em um enorme conjunto de dados do mundo real de uma empresa líder em cuidados pessoais — compreendendo 57 pesquisas de produtos e 9.300 respostas humanas — o método SSR alcançou 90% de confiabilidade de teste-reteste em humanos. Crucialmente, a distribuição das classificações geradas pela IA era estatisticamente quase indistinguível do painel humano. Os autores afirmam, “Essa estrutura permite simulações escalonáveis de pesquisas de consumo, ao mesmo tempo que preserva as métricas e a interpretabilidade das pesquisas tradicionais.”
Uma solução oportuna, pois a IA ameaça a integridade da pesquisa
Este desenvolvimento chega num momento crítico, uma vez que a integridade dos painéis tradicionais de inquéritos online está cada vez mais ameaçada pela IA. Uma análise de 2024 do Escola de Pós-Graduação em Negócios de Stanford destacou um problema crescente de respondentes humanos que usam chatbots para gerar suas respostas. Descobriu-se que essas respostas geradas por IA eram “suspeitamente legal,” excessivamente prolixo e sem a “sarcasmo” e autenticidade do feedback humano genuíno, levando ao que os pesquisadores chamaram de “homogeneização” de dados que podem mascarar questões graves, como discriminação ou falhas de produtos.
A investigação de Maier oferece uma abordagem totalmente diferente: em vez de lutar para eliminar dados contaminados, cria um ambiente controlado para gerar dados sintéticos de alta fidelidade a partir do zero.
“O que estamos vendo é uma mudança entre a defesa e o ataque,” disse um analista não afiliado ao estudo. “O artigo de Stanford mostrou o caos da IA descontrolada poluindo conjuntos de dados humanos. Este novo artigo mostra a ordem e a utilidade da IA controlada na criação de seus próprios conjuntos de dados. Para um Chief Data Officer, esta é a diferença entre limpar um poço contaminado e explorar uma fonte fresca.”
Do texto à intenção: O salto técnico por trás do consumidor sintético
A validade técnica do novo método depende da qualidade dos embeddings do texto, um conceito explorado em um artigo de 2022 em Ciência de Dados EPJ. Essa pesquisa defendeu um rigoroso “validade de construção” estrutura para garantir que as incorporações de texto – as representações numéricas do texto – realmente “medir o que deveriam.”
O sucesso do Método SSR sugere que suas incorporações capturam efetivamente as nuances da intenção de compra. Para que esta nova técnica seja amplamente adoptada, as empresas terão de estar confiantes de que os modelos subjacentes não estão apenas a gerar texto plausível, mas também a mapear esse texto para pontuações de uma forma que seja robusta e significativa.
A abordagem também representa um salto significativo em relação a pesquisas anteriores, que se concentraram principalmente no uso de incorporações de texto para analisar e prever classificações de avaliações online existentes. UM Estudo de 2022por exemplo, avaliaram o desempenho de modelos como BERT e word2vec na previsão de pontuações de avaliações em sites de varejo, descobrindo que modelos mais recentes, como BERT, tiveram melhor desempenho para uso geral. A nova pesquisa vai além da análise de dados existentes para gerar insights novos e preditivos antes mesmo de um produto chegar ao mercado.
O surgimento do grupo focal digital
Para os decisores técnicos, as implicações são profundas. A capacidade de girar um “gêmeo digital” de um segmento-alvo de consumidores e testar conceitos de produtos, textos de anúncios ou variações de embalagens em questão de horas poderia acelerar drasticamente os ciclos de inovação.
Como observa o artigo, esses entrevistados sintéticos também fornecem “feedback qualitativo rico explicando suas classificações,” oferecendo um tesouro de dados para o desenvolvimento de produtos que é ao mesmo tempo escalonável e interpretável. Embora a era dos grupos focais exclusivamente humanos esteja longe de terminar, esta investigação fornece a evidência mais convincente de que os seus homólogos sintéticos estão prontos para o negócio.
Mas o caso de negócio vai além da velocidade e da escala. Consideremos a questão económica: um painel de inquérito tradicional para o lançamento de um produto nacional pode custar dezenas de milhares de dólares e levar semanas para ser colocado em prática. Uma simulação baseada em SSR poderia fornecer insights comparáveis em uma fração do tempo, por uma fração do custo e com a capacidade de iterar instantaneamente com base nas descobertas. Para empresas em categorias de bens de consumo em rápida evolução – onde a janela entre o conceito e a prateleira pode determinar a liderança de mercado – esta vantagem de velocidade pode ser decisiva.
Existem, é claro, advertências. O método foi validado em produtos de higiene pessoal; o seu desempenho em decisões complexas de compra B2B, bens de luxo ou produtos culturalmente específicos permanece sem comprovação. E embora o artigo demonstre que a SSR pode replicar o comportamento humano agregado, não pretende prever as escolhas individuais dos consumidores. A técnica funciona no nível populacional, não no nível pessoal – uma distinção que é muito importante para aplicações como marketing personalizado.
No entanto, mesmo com essas limitações, a pesquisa é um divisor de águas. Embora a era dos grupos focais exclusivamente humanos esteja longe de terminar, este artigo fornece a evidência mais convincente de que os seus homólogos sintéticos estão prontos para o negócio. A questão já não é se a IA pode simular o sentimento do consumidor, mas se as empresas podem agir com rapidez suficiente para capitalizarem-no antes dos seus concorrentes.