Início Tecnologia Pesquisadores da Nvidia desbloqueiam treinamento LLM de 4 bits que corresponde ao...

Pesquisadores da Nvidia desbloqueiam treinamento LLM de 4 bits que corresponde ao desempenho de 8 bits

10
0

Pesquisadores da Nvidia desenvolveram um abordagem inovadora treinar grandes modelos de linguagem (LLMs) em formato quantizado de 4 bits, mantendo sua estabilidade e precisão no nível de modelos de alta precisão. Sua técnica, NVFP4, torna possível treinar modelos que não apenas superam outros formatos líderes de 4 bits, mas também igualam o desempenho do formato FP8 maior de 8 bits, ao mesmo tempo em que usam metade da memória e uma fração da computação.

O sucesso do NVFP4 mostra que as empresas podem continuar a reduzir custos de inferência executando modelos mais enxutos que correspondam ao desempenho de modelos maiores. Também sugere um futuro onde o custo da formação de LLMs cairá a um ponto em que muito mais organizações poderão treinar os seus próprios modelos personalizados a partir do zero, em vez de apenas afinar os existentes.

O desafio da quantização

Quantização de modelo é uma técnica usada para reduzir os custos computacionais e de memória de execução e treinamento de modelos de IA. Ele funciona convertendo os parâmetros ou pesos do modelo de formatos de alta precisão, como ponto flutuante de 16 e 32 bits (BF16 e FP32), para formatos de menor precisão. O principal desafio da quantização é reduzir o tamanho do modelo e, ao mesmo tempo, preservar o máximo possível de seu conhecimento e capacidades.

Nos últimos anos, os formatos de ponto flutuante de 8 bits (FP8) tornaram-se um padrão in style da indústria, oferecendo um bom equilíbrio entre desempenho e eficiência. Eles reduzem significativamente o custo computacional e a demanda de memória para treinamento LLM sem uma grande queda na precisão.

O próximo passo lógico é o ponto flutuante de 4 bits (FP4), que promete reduzir novamente pela metade o uso de memória e aumentar ainda mais o desempenho em {hardware} avançado. No entanto, esta transição tem sido desafiadora. Os formatos existentes de 4 bits, como MXFP4, muitas vezes lutam para manter o mesmo nível de precisão que seus equivalentes de 8 bits, forçando uma difícil compensação entre custo e desempenho.

Como funciona o NVFP4

O NVFP4 supera os desafios de estabilidade e precisão de outras técnicas do FP4 por meio de um design mais inteligente e de uma metodologia de treinamento direcionada. Um problema importante com a precisão de 4 bits é seu alcance extremamente limitado: ela só pode representar 16 valores distintos. Ao converter de um formato de alta precisão, valores discrepantes podem distorcer todo o conjunto de dados, prejudicando a precisão do modelo. O NVFP4 usa uma abordagem de escalabilidade multinível mais sofisticada que lida melhor com esses valores discrepantes, permitindo uma "representação mais precisa e precisa dos valores do tensor durante o treinamento," de acordo com a Nvidia.

Além do formato, os pesquisadores apresentam uma receita de treinamento de 4 bits que atinge precisão comparável ao FP8. Um componente central é a sua “estratégia de precisão mista”. Em vez de converter todo o modelo para NVFP4, a maioria das camadas é quantizada, enquanto uma pequena fração das camadas numericamente sensíveis é mantida em um formato de maior precisão como o BF16. Isso preserva a estabilidade onde é mais importante. A metodologia também ajusta a forma como os gradientes são calculados durante a retropropagação — ou a fase de aprendizagem do modelo — para reduzir vieses que podem se acumular a partir da aritmética de baixa precisão.

NVFP4 na prática

Para testar sua abordagem, a equipe da Nvidia treinou um poderoso híbrido de 12 bilhões de parâmetros Modelo Mamba-Transformador em massivos 10 trilhões de tokens. Em seguida, compararam o seu desempenho diretamente com um modelo de base treinado no amplamente in style formato FP8. Os resultados mostraram que a perda de treinamento do modelo NVFP4 e a precisão das tarefas posteriores acompanharam de perto a versão FP8 durante todo o processo.

O desempenho manteve-se numa vasta gama de domínios, incluindo raciocínio intensivo em conhecimento, matemática e tarefas de senso comum, com apenas uma ligeira queda nos parâmetros de referência de codificação no remaining da formação.

"Isso marca, até onde sabemos, a primeira demonstração bem-sucedida de treinamento de modelos de linguagem de bilhões de parâmetros com precisão de 4 bits em um horizonte de vários trilhões de tokens, estabelecendo as bases para um treinamento mais rápido e eficiente de futuros modelos de fronteira”, escrevem os pesquisadores.

De acordo com o diretor de produto de IA e GPUs de knowledge heart da Nvidia, NvidiaShar Narasimhan, na prática, o formato de precisão de 4 bits do NVFP4 permite que desenvolvedores e empresas treinem e implantem modelos de IA com quase a mesma precisão dos formatos tradicionais de 8 bits.

“Ao treinar pesos de modelo diretamente no formato de 4 bits, preservando a precisão, ele permite que os desenvolvedores experimentem novas arquiteturas, iterem mais rapidamente e descubram insights sem serem prejudicados por restrições de recursos”, disse ele ao VentureBeat.

Em contraste, o FP8 (embora já seja um avanço em relação ao FP16) ainda impõe limites ao tamanho do modelo e ao desempenho de inferência devido às maiores demandas de memória e largura de banda. “O NVFP4 ultrapassa esse limite, oferecendo qualidade equivalente com espaço dramaticamente maior para crescimento e experimentação”, disse Narasimhan.

Quando comparado ao formato alternativo de 4 bits, MXFP4, os benefícios do NVFP4 tornam-se ainda mais claros. Em um experimento com um modelo de 8 bilhões de parâmetros, o NVFP4 convergiu para uma pontuação de perda melhor que o MXFP4. Para atingir o mesmo nível de desempenho do modelo NVFP4, o modelo MXFP4 teve que ser treinado com 36% mais dados, um aumento considerável no tempo e custo de treinamento.

Além de tornar o pré-treinamento mais eficiente, o NVFP4 também redefine o que é possível. “Mostrar que a precisão de 4 bits pode preservar a qualidade do modelo em escala abre a porta para um futuro onde modelos altamente especializados podem ser treinados do zero por empresas de médio porte ou startups, não apenas hiperescaladores”, disse Narasimhan, acrescentando que, com o tempo, podemos esperar uma mudança do desenvolvimento de modelos LLMs de uso geral para “um ecossistema diversificado de modelos personalizados e de alto desempenho construídos por uma gama mais ampla de inovadores”.

Além do pré-treinamento

Embora o artigo se concentre nas vantagens do NVFP4 durante o pré-treinamento, seu impacto também se estende à inferência.

“Os modelos treinados no NVFP4 podem não apenas fornecer inferência mais rápida e maior rendimento, mas também reduzir o tempo necessário para as fábricas de IA alcançarem o ROI – acelerando o ciclo desde o desenvolvimento do modelo até a implantação no mundo actual”, disse Narasimhan.

Como esses modelos são menores e mais eficientes, eles abrem novas possibilidades para fornecer respostas complexas e de alta qualidade em tempo actual, mesmo em aplicações de agente com uso intensivo de tokens, sem aumentar os custos de energia e computação.

Narasimhan disse que olha para um futuro de eficiência de modelo que não se trata apenas de reduzir a precisão, mas de construir sistemas mais inteligentes.

“Há muitas oportunidades para expandir a pesquisa em precisões mais baixas, bem como modificar arquiteturas para abordar os componentes que dominam cada vez mais a computação em modelos de grande escala”, disse ele. “Essas áreas são ricas em oportunidades, especialmente à medida que avançamos em direção a sistemas de agentes que exigem alto rendimento, baixa latência e raciocínio adaptativo. O NVFP4 prova que a precisão pode ser otimizada sem comprometer a qualidade e prepara o terreno para uma nova period de design de IA inteligente e eficiente.”

avots

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui