Início Tecnologia Os modelos Granite 4.0 Nano AI de código aberto da IBM são...

Os modelos Granite 4.0 Nano AI de código aberto da IBM são pequenos o suficiente para serem executados localmente diretamente em seu navegador

7
0

Em um setor onde o tamanho do modelo é frequentemente visto como um substituto para a inteligência, a IBM está traçando um caminho diferente – que valoriza eficiência acima da enormidadee acessibilidade sobre abstração.

A gigante da tecnologia de 114 anos quatro novos modelos Granite 4.0 Nanolançado hoje, variam de apenas 350 milhões a 1,5 bilhão de parâmetros, uma fração do tamanho de seus primos vinculados a servidores, como OpenAI, Anthropic e Google.

Esses modelos são projetados para serem altamente acessíveis: as variantes 350M podem funcionar confortavelmente em uma CPU de laptop computer moderna com 8–16 GB de RAM, enquanto os modelos 1,5B normalmente exigem uma GPU com pelo menos 6–8 GB de VRAM para desempenho suave – ou RAM de sistema suficiente e swap para inferência somente de CPU. Isso os torna adequados para desenvolvedores que criam aplicativos em {hardware} de consumo ou na borda, sem depender da computação em nuvem.

Na verdade, os menores podem até ser executados localmente em seu próprio navegador, como Joshua Lochner, também conhecido como Xenovacriador do Transformer.js e engenheiro de aprendizado de máquina da Hugging Face, escreveu na rede social X.

Todos os modelos Granite 4.0 Nano são lançados sob a licença Apache 2.0 — perfeito para uso por pesquisadores e desenvolvedores empresariais ou independentes, mesmo para uso comercial.

Eles são nativamente compatíveis com llama.cpp, vLLM e MLX e são certificados pela ISO 42001 para desenvolvimento responsável de IA – um padrão que a IBM ajudou a ser pioneira.

Mas, neste caso, pequeno não significa menos capaz – pode significar apenas um design mais inteligente.

Esses modelos compactos não são desenvolvidos para knowledge facilities, mas para dispositivos de borda, laptops e inferência native, onde a computação é escassa e a latência é importante.

E apesar do seu pequeno tamanho, os modelos Nano apresentam resultados de referência que rivalizam ou até excedem o desempenho de modelos maiores na mesma categoria.

O lançamento é um sinal de que uma nova fronteira de IA está se formando rapidamente – uma fronteira não dominada pela grande escala, mas por escalabilidade estratégica.

O que exatamente a IBM lançou?

O Granito 4.0 Nano família inclui quatro modelos de código aberto agora disponíveis em Abraçando o rosto:

  • Granito-4.0-H-1B (parâmetros de aproximadamente 1,5B) – Arquitetura Híbrida-SSM

  • Granito-4.0-H-350M (parâmetros de ~350M) – Arquitetura Hybrid-SSM

  • Granito-4.0-1B – Variante baseada em transformador, contagem de parâmetros mais próxima de 2B

  • Granito-4,0-350M – Variante baseada em transformador

Os modelos da série H — Granite-4.0-H-1B e H-350M — usam uma arquitetura híbrida de espaço de estado (SSM) que combina eficiência com forte desempenho, best para ambientes de borda de baixa latência.

Enquanto isso, as variantes padrão do transformador — Granite-4.0-1B e 350M — oferecem compatibilidade mais ampla com ferramentas como llama.cpp, projetadas para casos de uso onde a arquitetura híbrida ainda não é suportada.

Na prática, o modelo 1B do transformador está mais próximo dos parâmetros 2B, mas se alinha em termos de desempenho com seu irmão híbrido, oferecendo aos desenvolvedores flexibilidade com base em suas restrições de tempo de execução.

“A variante híbrida é um verdadeiro modelo 1B. No entanto, a variante não híbrida está mais próxima de 2B, mas optamos por manter a nomenclatura alinhada à variante híbrida para tornar a conexão facilmente visível”, explicou Emma, ​​líder de advertising de produto da Granite, durante um evento. Reddit "Pergunte-me qualquer coisa" (AMA) em r/LocalLLaMA.

Uma classe competitiva de pequenos modelos

A IBM está entrando em um mercado lotado e em rápida evolução de modelos de linguagem pequena (SLMs), competindo com ofertas como Qwen3, Gemma do Google, LFM2 da LiquidAI e até mesmo modelos densos de Mistral no espaço de parâmetros sub-2B.

Enquanto OpenAI e Anthropic se concentram em modelos que exigem clusters de GPUs e otimização de inferência sofisticada, a família Nano da IBM é voltada diretamente para desenvolvedores que desejam executar LLMs de alto desempenho em {hardware} native ou restrito.

Em testes de benchmark, os novos modelos da IBM estão consistentemente no topo das paradas em sua classe. De acordo com dados compartilhado no X por David Cox, vice-presidente de modelos de IA da IBM Research:

  • No IFEval (instruções a seguir), Granite-4.0-H-1B pontuou 78,5, superando Qwen3-1.7B (73,1) e outros modelos 1–2B.

  • No BFCLv3 (chamada de função/ferramenta), o Granite-4.0-1B liderou com uma pontuação de 54,8, a mais alta em sua classe de tamanho.

  • Nos benchmarks de segurança (SALAD e AttaQ), os modelos Granite obtiveram pontuação superior a 90%, superando concorrentes de tamanho semelhante.

No geral, o Granite-4.0-1B alcançou uma pontuação média de benchmark líder de 68,3% nos domínios de conhecimento geral, matemática, código e segurança.

Este desempenho é especialmente significativo dadas as restrições de {hardware} para as quais esses modelos foram projetados.

Eles exigem menos memória, rodam mais rápido em CPUs ou dispositivos móveis e não precisam de infraestrutura em nuvem ou aceleração de GPU para fornecer resultados utilizáveis.

Por que o tamanho do modelo ainda é importante – mas não como costumava ser

Na onda inicial de LLMs, maior significava melhor – mais parâmetros traduzidos em melhor generalização, raciocínio mais profundo e resultados mais ricos.

Mas à medida que a pesquisa sobre transformadores amadureceu, ficou claro que a arquitetura, a qualidade do treinamento e o ajuste específico para tarefas poderiam permitir que modelos menores superassem sua classe de peso.

A IBM está apostando nesta evolução. Ao lançar modelos pequenos e abertos que são competitivo em tarefas do mundo actuala empresa está oferecendo uma alternativa às APIs de IA monolíticas que dominam a pilha de aplicativos atual.

Na verdade, os modelos Nano atendem a três necessidades cada vez mais importantes:

  1. Flexibilidade de implantação — eles são executados em qualquer lugar, desde dispositivos móveis até microsservidores.

  2. Privacidade de inferência — os usuários podem manter os dados locais sem a necessidade de recorrer às APIs da nuvem.

  3. Abertura e auditabilidade — o código-fonte e os pesos dos modelos estão disponíveis publicamente sob uma licença aberta.

Resposta da Comunidade e Sinais do Roteiro

A equipe Granite da IBM não apenas lançou os modelos e foi embora – eles adotaram Comunidade de código aberto do Reddit r/LocalLLaMA para interagir diretamente com os desenvolvedores.

Em um tópico no estilo AMA, Emma (Advertising and marketing de Produto, Granite) respondeu a perguntas técnicas, abordou preocupações sobre convenções de nomenclatura e deu dicas sobre o que vem a seguir.

Confirmações notáveis ​​do tópico:

  • Um modelo maior do Granite 4.0 está atualmente em treinamento

  • Modelos focados no raciocínio ("homólogos pensantes") estão em preparação

  • A IBM lançará receitas de ajuste fino e um documento de treinamento completo em breve

  • Mais ferramentas e compatibilidade de plataforma estão no roteiro

Os usuários responderam com entusiasmo às capacidades dos modelos, especialmente em tarefas de seguimento de instruções e respostas estruturadas. Um comentarista resumiu:

“Isso é grande se for verdade para um modelo 1B – se a qualidade for boa e fornecer resultados consistentes. Tarefas de chamada de função, diálogo multilíngue, conclusões FIM… isso pode ser um verdadeiro burro de carga.”

Outro usuário comentou:

“O Granite Tiny já é meu favorito para pesquisas na internet no LM Studio – melhor do que alguns modelos Qwen. Estou tentado a dar uma probability ao Nano.”

Antecedentes: IBM Granite e a corrida de IA empresarial

A investida da IBM em grandes modelos de linguagem começou para valer no last de 2023 com a estreia da família de modelos de base Granite, começando com modelos como Granito.13b.instruir e Granito.13b.chat. Lançados para uso em sua plataforma Watsonx, esses modelos iniciais somente decodificadores sinalizaram a ambição da IBM de construir sistemas de IA de nível empresarial que priorizem transparência, eficiência e desempenho. A empresa abriu o código-fonte de modelos de código Granite selecionados sob a licença Apache 2.0 em meados de 2024, estabelecendo as bases para uma adoção mais ampla e experimentação do desenvolvedor.

O verdadeiro ponto de inflexão veio com o Granite 3.0 em outubro de 2024 – um conjunto totalmente de código aberto de modelos de uso geral e especializados em domínio que variam de parâmetros de 1B a 8B. Esses modelos enfatizaram a eficiência em vez da escala bruta, oferecendo recursos como janelas de contexto mais longas, ajuste de instruções e proteções integradas. A IBM posicionou o Granite 3.0 como um concorrente direto do Llama da Meta, do Qwen do Alibaba e do Gemma do Google – mas com uma lente exclusivamente empresarial. Versões posteriores, incluindo Granite 3.1 e Granite 3.2, introduziram inovações ainda mais amigáveis ​​às empresas: detecção de alucinações incorporada, previsão de séries temporais, modelos de visão de documentos e alternadores de raciocínio condicional.

A família Granite 4.0, lançada em outubro de 2025, representa o lançamento tecnicamente mais ambicioso da IBM até agora. Ele introduz uma arquitetura híbrida que combina camadas de transformador e Mamba-2 – com o objetivo de combinar a precisão contextual dos mecanismos de atenção com a eficiência de memória dos modelos de espaço de estados. Esse design permite que a IBM reduza significativamente os custos de memória e latência para inferência, tornando os modelos Granite viáveis ​​em {hardware} menor e ainda superando seus pares em tarefas de acompanhamento de instruções e chamada de função. O lançamento também inclui certificação ISO 42001, assinatura de modelo criptográfico e distribuição em plataformas como Hugging Face, Docker, LM Studio, Ollama e watsonx.ai.

Em todas as iterações, o foco da IBM tem sido claro: construir modelos de IA confiáveis, eficientes e legalmente inequívocos para casos de uso corporativo. Com uma licença permissiva Apache 2.0, benchmarks públicos e uma ênfase na governação, a iniciativa Granite não só responde às preocupações crescentes sobre modelos proprietários de caixa negra, mas também oferece uma alternativa aberta alinhada com o Ocidente ao rápido progresso de equipas como a Qwen da Alibaba. Ao fazer isso, a Granite posiciona a IBM como uma voz líder no que pode ser a próxima fase da IA ​​aberta e pronta para produção.

Uma mudança em direção à eficiência escalável

No last, o lançamento dos modelos Granite 4.0 Nano pela IBM reflete uma mudança estratégica no desenvolvimento de LLM: da busca de registros de contagem de parâmetros à otimização da usabilidade, abertura e alcance da implementação.

Ao combinar desempenho competitivo, práticas de desenvolvimento responsável e profundo envolvimento com a comunidade de código aberto, a IBM está posicionando o Granite não apenas como uma família de modelos, mas como uma plataforma para construir a próxima geração de sistemas de IA leves e confiáveis.

Para desenvolvedores e pesquisadores que buscam desempenho sem sobrecarga, o lançamento do Nano oferece um sinal convincente: você não precisa de 70 bilhões de parâmetros para construir algo poderoso – apenas os corretos.

avots

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui