Não faltam benchmarks de IA no mercado hoje, com opções populares como O Último Exame da Humanidade (HLE), ARC-AGI-2 e GDPval, entre vários outros.
Os agentes de IA são excelentes na resolução de problemas matemáticos abstratos e na aprovação em exames de nível de doutorado nos quais a maioria dos benchmarks se baseia, mas a Databricks tem uma pergunta para a empresa: eles podem realmente lidar com o trabalho pesado de documentos que a maioria das empresas precisa que eles façam?
A resposta, de acordo com uma nova pesquisa da empresa de plataforma de dados e IA, é preocupante. Mesmo os agentes de IA com melhor desempenho alcançam menos de 45% de precisão em tarefas que refletem cargas de trabalho empresariais reais, expondo uma lacuna crítica entre os benchmarks acadêmicos e a realidade empresarial.
“Se concentrarmos nossos esforços de pesquisa em melhorar [existing benchmarks]então provavelmente não estamos resolvendo os problemas certos para tornar o Databricks uma plataforma melhor”, explicou Erich Elsen, principal cientista pesquisador da Databricks, ao VentureBeat. Como podemos criar uma referência que, se melhorarmos nisso, estaremos realmente melhorando na solução dos problemas que nossos clientes têm?”
O resultado é o OfficeQA, um benchmark projetado para testar agentes de IA com base no raciocínio fundamentado: responder perguntas com base em conjuntos de dados proprietários complexos contendo documentos não estruturados e dados tabulares. Ao contrário dos benchmarks existentes que se concentram em capacidades abstratas, o OfficeQA representa as tarefas economicamente valiosas que as empresas realmente executam.
Por que os benchmarks acadêmicos erram o marco empresarial
Existem inúmeras deficiências nos benchmarks populares de IA do ponto de vista empresarial, de acordo com Elsen.
O HLE apresenta questões que exigem experiência em nível de doutorado em diversas áreas. ARC-AGI avalia o raciocínio abstrato através da manipulação visual de grades coloridas. Ambos ultrapassam as fronteiras das capacidades de IA, mas não refletem o trabalho diário da empresa. Mesmo o GDPval, que foi criado especificamente para avaliar tarefas economicamente úteis, erra o alvo.
“Viemos de uma formação bastante sólida em ciência ou engenharia e, às vezes, criamos avaliações que refletem isso”, disse Elsen. “Portanto, eles são extremamente pesados em matemática, o que é uma tarefa excelente e útil, mas avançar as fronteiras da matemática humana não é o que os clientes estão tentando fazer com o Databricks.”
Embora a IA seja comumente usada para suporte ao cliente e aplicativos de codificação, a base de clientes da Databricks tem um conjunto mais amplo de requisitos. Elsen observou que responder a perguntas sobre documentos ou corpora de documentos é uma tarefa empresarial comum. Isso exige a análise de tabelas complexas com cabeçalhos aninhados, a recuperação de informações em dezenas ou centenas de documentos e a realização de cálculos onde um erro de um dígito pode se espalhar para que as organizações tomem decisões de negócios incorretas.
Construindo um benchmark que espelhe a complexidade dos documentos empresariais
Para criar um teste significativo de capacidades de raciocínio fundamentado, a Databricks precisava de um conjunto de dados que se aproximasse da realidade confusa dos corpora de documentos corporativos proprietários, ao mesmo tempo que permanecesse disponível gratuitamente para pesquisa. A equipe chegou aos Boletins do Tesouro dos EUA, publicados mensalmente durante cinco décadas, começando em 1939 e trimestralmente a partir de então.
Os Boletins do Tesouro marcam todas as caixas quanto à complexidade dos documentos empresariais. Cada boletim tem de 100 a 200 páginas e consiste em prosa, tabelas complexas, gráficos e figuras que descrevem as operações do Tesouro: de onde veio o dinheiro federal, para onde foi e como financiou as operações do governo. O corpus abrange aproximadamente 89.000 páginas ao longo de oito décadas. Até 1996, os boletins eram digitalizações de documentos físicos; depois, foram PDFs produzidos digitalmente. A USAFacts, uma organização cuja missão é “tornar os dados governamentais mais fáceis de acessar e compreender”, fez parceria com a Databricks para desenvolver o benchmark, identificando os Boletins do Tesouro como ideais e garantindo que as perguntas refletissem casos de uso realistas.
As 246 perguntas exigem que os agentes lidem com desafios confusos de documentos do mundo real: imagens digitalizadas, estruturas hierárquicas de tabelas, dados temporais abrangendo vários relatórios e a necessidade de conhecimento externo, como ajustes de inflação. As perguntas variam desde simples pesquisas de valores até análises em várias etapas que exigem cálculos estatísticos e comparações entre anos.
Para garantir que o benchmark exija uma recuperação real baseada em documentos, o Databricks filtrou perguntas que os LLMs poderiam responder usando apenas conhecimento paramétrico ou pesquisa na web. Isso eliminou questões mais simples e algumas perguntas surpreendentemente complexas, nas quais os modelos aproveitavam registros financeiros históricos memorizados durante o pré-treinamento.
Cada pergunta tem uma resposta verdadeira validada (normalmente um número, às vezes datas ou pequenas listas), permitindo avaliação automatizada sem julgamento humano. Esta escolha de design é importante: permite abordagens de aprendizagem por reforço (RL) que exigem recompensas verificáveis, semelhante à forma como os modelos treinam em problemas de codificação.
O desempenho atual expõe lacunas fundamentais
Databricks testou o agente Claude Opus 4.5 (usando o SDK de Claude) e o agente GPT-5.1 (usando a API de pesquisa de arquivos da OpenAI). Os resultados devem dar uma pausa a qualquer empresa que aposte pesadamente nas capacidades atuais dos agentes.
Quando fornecido com documentos PDF brutos:
No entanto, o desempenho melhorou visivelmente quando fornecido com versões pré-analisadas de páginas usando Databricks’ ai_parse_documentindicando que o baixo desempenho do PDF bruto decorre de APIs LLM que lutam com análise em vez de raciocínio. Mesmo com documentos analisados, os experimentos mostram espaço para melhorias.
Quando fornecido com documentos analisados usando o ai_parse_document do Databricks:
Três descobertas importantes para implantações corporativas
Os testes identificaram insights críticos para os profissionais:
A análise continua sendo o bloqueador fundamental: Tabelas complexas com cabeçalhos aninhados, células mescladas e formatação incomum frequentemente produzem valores desalinhados. Mesmo quando recebiam páginas exatas do Oracle, os agentes enfrentavam dificuldades principalmente devido a erros de análise, embora o desempenho praticamente dobrasse com documentos pré-analisados.
O versionamento de documentos cria ambiguidade: Os documentos financeiros e regulatórios são revisados e reeditados, o que significa que existem múltiplas respostas válidas dependendo da data de publicação. Os agentes muitas vezes param de pesquisar quando encontram uma resposta plausível, perdendo fontes mais confiáveis.
O raciocínio visual é uma lacuna: Cerca de 3% das questões requerem interpretação de tabelas ou gráficos, onde os agentes atuais falham consistentemente. Para empresas onde as visualizações de dados comunicam insights críticos, isso representa uma limitação significativa de capacidade.
Como as empresas podem usar o OfficeQA
O design do benchmark permite caminhos de melhoria específicos além da simples pontuação.
“Como você consegue ver a resposta certa, é fácil saber se o erro vem da análise”, explicou Elsen.
Essa avaliação automatizada permite uma iteração rápida na análise de pipelines. As respostas verdadeiras verificadas também permitem o treinamento de RL semelhante aos benchmarks de codificação, uma vez que não é necessário julgamento humano.
Elsen disse que o benchmark fornece “um sinal de feedback realmente forte” para desenvolvedores que trabalham em soluções de busca. No entanto, ele alertou contra tratá-los como dados de treinamento.
“Pelo menos na minha imaginação, o objetivo de divulgar isso é mais uma avaliação e não uma fonte de dados brutos de treinamento”, disse ele. “Se você se sintonizar muito especificamente com esse ambiente, não ficará claro até que ponto os resultados do seu agente seriam generalizáveis”.
O que isso significa para implantações empresariais de IA
Para empresas que atualmente implantam ou planejam sistemas de agentes de IA com muitos documentos, o OfficeQA fornece uma verificação da realidade preocupante. Mesmo os modelos mais recentes alcançam apenas 43% de precisão em PDFs não processados e ficam aquém de 70% de precisão, mesmo com análise ideal de documentos. O desempenho nas questões mais difíceis atinge um patamar de 40%, indicando espaço substancial para melhorias.
Três implicações imediatas:
Avalie a complexidade do seu documento: se seus documentos se assemelham ao perfil de complexidade dos Boletins do Tesouro (imagens digitalizadas, estruturas de tabelas aninhadas, referências entre documentos), espere uma precisão bem abaixo das afirmações de marketing do fornecedor. Teste seus documentos reais antes da implantação em produção.
Planeje o gargalo de análise: Os resultados do teste indicam que a análise continua sendo um bloqueador fundamental. Reserve tempo e recursos para soluções de análise personalizadas, em vez de presumir que o OCR pronto para uso será suficiente.
Planeje modos de falha em perguntas difíceis: mesmo com análise ideal, os agentes atingem um patamar de 40% em questões complexas de várias etapas. Para fluxos de trabalho de documentos de missão crítica que exigem análise de vários documentos, cálculos estatísticos ou raciocínio visual, os recursos atuais dos agentes podem não estar prontos sem supervisão humana significativa.
Para empresas que buscam liderar em inteligência documental baseada em IA, este benchmark fornece uma estrutura de avaliação concreta e identifica lacunas de capacidade específicas que precisam ser resolvidas.













