Mais um dia no closing de 2025, outro resultado impressionante de uma empresa chinesa em inteligência synthetic de código aberto.
Empresa chinesa de redes sociais A divisão de IA do Weibo lançou recentemente seu código aberto VibeThinker-1.5B—um modelo de linguagem grande (LLM) de 1,5 bilhão de parâmetros que é uma variante aprimorada da empresa de tecnologia rival chinesa Qwen2.5-Math-1.5B do Alibaba.
Já está disponível para obtain gratuito e uso por pesquisadores e desenvolvedores empresariais – até mesmo para fins comerciais – sob uma licença permissiva do MIT em Abraçando o rosto, GitHub e ModelScopecom um relatório técnico no website de publicação científica de acesso aberto arxiv.org.
E ainda assim, apesar de seu tamanho compacto, o VibeThinker-1.5B alcança desempenho de raciocínio líder em tarefas de matemática e código, rivalizando ou superando modelos centenas de vezes seu tamanho, superando até mesmo o famoso R1 do rival chinês DeepSeek, que se tornou viral no início deste ano – um modelo de 671 bilhões de parâmetros – em benchmark de raciocínio formal.
Ele eclipsa ainda mais o Magistral Medium da Mistral AI e se mantém contra o Claude Opus 4 da Anthropic e o gpt-oss-20B Medium da OpenAI, ao mesmo tempo que requer uma fração da infraestrutura e do investimento.
Ele também faz isso tendo sido pós-treinado com um orçamento de apenas US$ 7.800 para recursos de computação (3.900 horas de GPU em Nvidia H800s) – muito menos do que as dezenas, ou mesmo centenas, de milhares de dólares normalmente necessários para ajustar modelos de escala semelhante ou maior.
Lembre-se, porém, de que este não é o custo whole do desenvolvimento do modelo: os LLMs são treinados em etapas. Primeiro vem o pré-treinamento, quando o modelo aprende a estrutura básica da linguagem e o conhecimento geral, prevendo a próxima palavra em enormes quantidades de texto da Web, livros e artigos. Isso lhe dá fluência, mas não muita noção de como seguir instruções ou manter uma conversa
O pós-treinamento vem em seguida, usando conjuntos de dados muito menores e de maior qualidade – normalmente coleções de exemplos de perguntas, solicitações e respostas escritas por especialistas – para ensinar ao modelo como responder de forma útil, raciocinar sobre problemas e alinhar-se com as expectativas humanas. Ainda assim, a relação custo-benefício pós-treinamento do Weibo no VibeThinker-1.5B é digna de nota e deve ser elogiada.
A versão de código aberto derruba suposições sobre escala de parâmetros, intensidade de computação e tamanho mínimo viável para LLMs de alto desempenho.
Uma abordagem de treinamento diferente: Spectrum-to-Sign
O VibeThinker-1.5B deve seu desempenho não à escala, mas à estrutura de treinamento por trás dele: o Princípio Espectro para Sinal (SSP).
Em vez de otimizar um modelo puramente para correção de resposta única (Cross@1), a estrutura SSP separa o ajuste fino supervisionado (SFT) e a aprendizagem por reforço (RL) em duas fases distintas com objetivos diferentes:
-
SFT (“Fase do Espectro”): o modelo é treinado para maximizar a diversidade entre possíveis respostas corretas, melhorando sua pontuação Cross@Ok. Isso cria uma ampla gama de caminhos de soluções plausíveis.
-
RL (“Fase de Sinal”): Um sistema de aprendizagem por reforço de segundo estágio (chamado MaxEnt-Guided Coverage Optimization, ou MGPO) é usado para identificar e amplificar os caminhos mais corretos deste conjunto diversificado de soluções. O MGPO prioriza problemas onde o modelo é mais incerto, usando ponderação baseada em entropia para focar o aprendizado.
Os autores argumentam que esta separação permite que pequenos modelos explorem o espaço de raciocínio de forma mais eficaz – alcançando a amplificação do sinal sem depender de contagens massivas de parâmetros.
O VibeThinker-1.5B apresenta um argumento convincente de que a confiança da indústria no escalonamento de parâmetros como o único caminho para um melhor desempenho de raciocínio pode estar desatualizada.
Ao adotar um pipeline de treinamento que prioriza a diversidade, o WeiboAI mostrou que modelos menores e mais acessíveis podem igualar e até superar sistemas de bilhões de dólares em tarefas de lógica pesada.
A baixa pegada de recursos está entre os aspectos mais significativos do VibeThinker-1.5B. Custando menos de US$ 8.000, o custo pós-treinamento é 30–60 vezes menor do que modelos como DeepSeek R1 e MiniMax-M1, que custam entre US$ 294 mil e US$ 535 mil para treinar.
Desempenho em vários domínios
Apesar de seu tamanho pequeno, o VibeThinker-1.5B oferece raciocínio entre domínios que supera muitos modelos comerciais e de código aberto maiores:
|
Modelo |
AIME25 |
LiveCodeBench v6 |
GPQA-Diamante |
|
VibeThinker-1.5B |
74,4 |
51.1 |
46,7 |
|
GPT-OSS-20B-Médio |
72,1 |
54,9 |
66,0 |
|
Claude Opus 4 |
69,2 |
56,6 |
79,6 |
|
MiniMax M1 (456B) |
74,6 |
62,3 |
69,2 |
|
DeepSeekR1 (671B) |
70,0 |
65,9 |
71,5 |
|
Kimi K2 (1.09T) |
49,5 |
53,7 |
75,1 |
O VibeThinker foi comparado com modelos centrados no raciocínio (Magistral, Claude, OpenAI o3-mini) e LLMs sem raciocínio (GPT-4.1, Kimi K2, DeepSeek V3). Em todos os benchmarks de raciocínio estruturado, o modelo superou consistentemente os modelos sem raciocínio, independentemente do tamanho:
-
No AIME24 (matemática), venceu Kimi K2 (1,09T) por mais de 10 pontos (80,3 vs. 69,6).
-
No LiveCodeBench v6, ultrapassou Claude Opus 4 (51,1 vs. 47,4).
-
No GPQA, obteve pontuação abaixo de GPT-4.1 e Claude, mas ainda dobrou seu modelo básico (de 16,4 para 46,7).
Isto apoia a afirmação dos autores de que o tamanho não é o único caminho para a capacidade de raciocínio – com um design de treino adequado, modelos mais pequenos podem alcançar ou mesmo exceder o desempenho de sistemas muito maiores em tarefas específicas.
Notavelmente, alcança paridade com modelos centenas de vezes maiores em matemática e código, embora fique para trás no raciocínio de conhecimento geral (GPQA), onde modelos maiores mantêm uma vantagem.
Isso sugere uma compensação potencial de especialização: embora o VibeThinker seja excelente em tarefas lógicas estruturadas, ele tem menos capacidade para uma ampla recuperação enciclopédica, uma limitação conhecida de arquiteturas menores.
Orientação para adoção empresarial
A versão inclui configurações de inferência recomendadas (temperatura = 0,6, top_p = 0,95, tokens máximos = 40960).
O modelo é pequeno o suficiente para ser implantado em dispositivos de ponta, incluindo telefones celulares e sistemas embarcados em veículos, enquanto os custos de inferência são estimados em 20 a 70 vezes mais baratos do que com modelos grandes.
Isto posiciona o VibeThinker-1.5B não apenas como uma conquista de pesquisa, mas como uma base potencial para sistemas de raciocínio econômicos e localmente implantáveis.
Estratégia e posição de mercado do Weibo
O Weibo, lançado pela Sina Company em 2009, continua a ser uma pedra angular do ecossistema de mídia social da China. Muitas vezes descrita como a versão chinesa do X (anteriormente Twitter), a plataforma combina microblogging, conteúdo multimídia e recursos de tópicos de tendência com um ambiente regulatório moldado por uma supervisão rígida do governo.
Apesar de contar 600 milhões de usuários ativos mensais (mais que o dobro de X), os investidores não estão optimistas quanto ao seu potencial de crescimento das receitas publicitárias no curto prazo, e o Weibo está enfrentando uma concorrência cada vez maior de plataformas de vídeo como Douyin, que estão atraindo usuários mais jovens e aumentando o tempo gasto em outros lugares.
Em resposta, o Weibo se apoiou na monetização da economia do criador, na transmissão ao vivo e no vídeo vertical – adicionando ferramentas para envolvimento de influenciadores, integração de comércio eletrônico e análises mais ricas para marcas.
O papel da plataforma como praça pública digital também a torna um foco de escrutínio regulatório. As autoridades chinesas continuam a exercer pressão sobre questões que vão desde a governação de conteúdos até à segurança de dados. Em setembro de 2025, Weibo estava entre as plataformas citadas em avisos oficiaisdestacando a sua exposição contínua aos riscos políticos.
O impulso do Weibo na pesquisa e desenvolvimento de IA – exemplificado pelo lançamento do VibeThinker-1.5B – sinaliza uma mudança na ambição. Além de ser uma plataforma de mídia, o Weibo está se posicionando como um participant na próxima fase do desenvolvimento da IA chinesa, utilizando suas reservas de capital, dados de comportamento do usuário e capacidade de pesquisa interna para buscar domínios técnicos adjacentes.
O que isso significa para os tomadores de decisões técnicas empresariais
Para líderes de engenharia e equipes empresariais de IA, o lançamento do VibeThinker tem implicações práticas para tudo, desde pipelines de orquestração até modelagem de custos.
Um modelo de 1,5B de parâmetros que supera modelos 100 vezes maiores em tarefas matemáticas e de programação não apenas economiza computação, mas também altera o equilíbrio arquitetônico. Ele permite a inferência de LLM em infraestrutura restrita, reduz a latência na borda e reduz a barreira de entrada para aplicativos que, de outra forma, exigiriam acesso de API a modelos fechados em escala de fronteira.
Isso é importante para líderes de ML corporativos que tentam implantar agentes com capacidade de raciocínio em sistemas existentes ou para proprietários de plataformas encarregados de integrar LLMs em fluxos de trabalho automatizados.
Ele também atende aqueles que executam aprendizado por reforço a partir de pipelines de suggestions humano (RLHF) ou gerenciam a otimização de inferência em ambientes de nuvem híbrida.
A metodologia pós-treinamento do modelo – particularmente sua abordagem de aprendizagem por reforço focada na entropia – oferece um roteiro para equipes que buscam refinar pontos de verificação menores em vez de depender de pré-treinamento em grande escala.
As etapas de benchmark de transparência e descontaminação de dados do VibeThinker também abordam outra prioridade emergente na IA empresarial: auditabilidade. Embora seu desempenho em testes de conhecimento geral ainda esteja atrás de grandes modelos de fronteira, sua confiabilidade específica para tarefas o torna um candidato atraente para ambientes controlados onde a correção é mais importante do que a cobertura.
Resumindo, o VibeThinker-1.5B não é apenas um marco de pesquisa – é um forte candidato para uso empresarial prático, implantação e aprendizado. Isso sugere que uma nova classe de modelos compactos e otimizados para raciocínio é viável para casos de uso corporativo que anteriormente eram domínio de sistemas muito maiores. Para organizações que tentam equilibrar custo, latência, interpretabilidade e controle, é uma boa nova opção para a longa e crescente lista de ofertas chinesas de código aberto.











