Openai lançou um novo benchmark Na quinta -feira, que testa o desempenho de seus modelos de IA em comparação com profissionais humanos em uma ampla gama de indústrias e empregos. O teste, GDPVAL, é uma tentativa precoce de entender o quão próximos os sistemas da OpenAI estão superando os seres humanos em um trabalho economicamente valioso – uma parte essencial da missão fundadora da empresa de desenvolver inteligência geral synthetic ou AGI.
O Openai diz que encontrou que seu modelo GPT-5 e Claude Opus 4.1 da Anthropic “já estão se aproximando da qualidade do trabalho produzido por especialistas do setor”.
Isso não quer dizer que os modelos do Openai começarão a substituir os seres humanos imediatamente. Apesar das previsões de alguns CEOs que Ai levará o emprego dos humanos em apenas alguns anos, O Openai admite que o GDPVAL hoje abrange um número muito limitado de tarefas que as pessoas realizam em seus empregos reais. No entanto, é uma das últimas maneiras pelas quais a empresa está medindo o progresso da IA em relação a esse marco.
O GDPVAL é baseado em nove indústrias que mais contribuem para o produto interno bruto da América, incluindo domínios como saúde, finanças, fabricação e governo. O benchmark testa o desempenho de um modelo de IA em 44 ocupações entre esses setores, variando de engenheiros de software program a enfermeiros e jornalistas.
Para a primeira versão do teste do OpenAI, o GDPVAL-V0, o Openai pediu aos profissionais experientes que comparassem relatórios gerados pela IA com os produzidos por outros profissionais e depois escolhessem o melhor. Por exemplo, um immediate pediu aos banqueiros de investimento que criassem um cenário concorrente para o setor de entrega de última milha e comparasse-os com relatórios gerados pela IA. O OpenAI então calcula a média de uma “taxa de vitória” de um modelo de IA contra os relatórios humanos em todas as 44 ocupações.
Para o GPT-5-Excessive, uma versão aumentada do GPT-5 com energia computacional further, a empresa diz que o modelo de IA foi classificado como melhor do que ou em pé de igualdade com os especialistas do setor em 40,6% das vezes.
O OpenAI também testou o modelo Claude Opus 4.1 da Anthropic, que foi classificado como melhor ou a par com especialistas do setor em 49% das tarefas. O Openai diz que acredita que Claude marcou tão alto por causa de sua tendência a fazer gráficos agradáveis, em vez de puro desempenho.
Evento do TechCrunch
São Francisco
|
27-29 de outubro de 2025
Vale a pena notar que a maioria dos profissionais que trabalham faz muito mais do que enviar relatórios de pesquisa ao seu chefe, que é tudo o que os testes do GDPVAL-V0. O OpenAI reconhece isso e diz que planeja criar testes mais robustos no futuro, que podem explicar mais indústrias e fluxos de trabalho interativos.
No entanto, a empresa vê o progresso no GDPVAL como notável.
Em uma entrevista ao TechCrunch, o economista -chefe da Openai, Dr. Aaron Chatterji, disse que os resultados da GDPVAL sugerem que as pessoas nesses empregos agora podem usar os modelos de IA para gastar tempo em tarefas mais significativas.
““[Because] O modelo está ficando bom em algumas dessas coisas “, diz Chatterji,” as pessoas nesses empregos agora podem usar o modelo, cada vez mais à medida que as capacidades melhoram, para descarregar parte de seu trabalho e fazer coisas potencialmente mais altas de valor “.
As avaliações da Openai, a líder de Tejal Patwardhan, dizem a TechCrunch que ela é encorajada pela taxa de progresso no GDPVAL. O modelo GPT-4O da Openai obteve apenas 13,7% (vitórias e laços contra humanos), que foi lançado cerca de 15 meses atrás. Agora, o GPT-5 tem quase o triplo que, uma tendência que Patwardhan espera continuar.
O Vale do Silício possui uma ampla gama de benchmarks que usa para medir o progresso dos modelos de IA e avaliar se um determinado modelo é de ponta. Entre os mais populares estão o Aime 2025 (um teste de problemas de matemática competitivos) e o GPQA Diamond (um teste de questões de ciência do nível de doutorado). No entanto, vários modelos de IA estão se aproximando da saturação em alguns desses benchmarks, e muitos pesquisadores de IA citaram a necessidade de melhores testes que possam medir a proficiência da IA nas tarefas do mundo actual.
Os referências como o GDPVAL podem se tornar cada vez mais importantes nessa conversa, pois o Openai defende que seus modelos de IA são valiosos para uma ampla gama de indústrias. Mas o OpenAI pode precisar de uma versão mais abrangente do teste para dizer definitivamente que seus modelos de IA podem superar os seres humanos.