Início Tecnologia O especulador adaptativo ATLAS da Collectively AI oferece 400% de aceleração de...

O especulador adaptativo ATLAS da Collectively AI oferece 400% de aceleração de inferência ao aprender com cargas de trabalho em tempo actual

23
0

As empresas que expandem as implantações de IA estão atingindo um muro invisível de desempenho. O culpado? Especuladores estáticos que não conseguem acompanhar as mudanças nas cargas de trabalho.

Especuladores são modelos menores de IA que trabalham junto com grandes modelos de linguagem durante a inferência. Eles elaboram vários tokens antecipadamente, que o modelo principal verifica em paralelo. Esta técnica (chamada de decodificação especulativa) tornou-se essencial para empresas que tentam reduzir custos de inferência e latência. Em vez de gerar um token de cada vez, o sistema pode aceitar vários tokens de uma só vez, melhorando drasticamente o rendimento.

Juntos IA anunciou hoje uma pesquisa e um novo sistema chamado ATLAS (AdapTive-LeArning Speculator System) que visa ajudar as empresas a superar o desafio dos especuladores estáticos. A técnica fornece um recurso de otimização de inferência de autoaprendizagem que pode ajudar a fornecer desempenho de inferência até 400% mais rápido do que um nível básico de desempenho disponível em tecnologias de inferência existentes, como vLLM.

A empresa que teve seu começo em 2023, tem se concentrado em otimizando inferência em sua plataforma empresarial de IA. No início deste ano a empresa arrecadou US$ 305 milhões à medida que a adoção e a demanda dos clientes cresceram.

"As empresas com as quais trabalhamos geralmente, à medida que crescem, percebem mudanças nas cargas de trabalho e, então, não veem tanta aceleração na execução especulativa como antes," Tri Dao, cientista-chefe da Collectively AI, disse ao VentureBeat em uma entrevista exclusiva. "Esses especuladores geralmente não funcionam bem quando o domínio de sua carga de trabalho começa a mudar."

O problema de desvio de carga de trabalho sobre o qual ninguém fala

A maioria dos especuladores em produção hoje são "estático" modelos. Eles são treinados uma vez em um conjunto de dados fixo que representa as cargas de trabalho esperadas e depois implantados sem qualquer capacidade de adaptação. Empresas como Meta e Mistral enviam especuladores pré-treinados junto com seus modelos principais. Plataformas de inferência como vLLM usam esses especuladores estáticos para aumentar o rendimento sem alterar a qualidade da saída.

Mas há um problema. Quando o uso de IA por uma empresa evolui, a precisão do especulador estático despenca.

"Se você é uma empresa que produz agentes de codificação e a maioria de seus desenvolvedores escreve em Python, de repente alguns deles passam a escrever Rust ou C, então você vê que a velocidade começa a diminuir," Dao explicou. "O especulador tem uma incompatibilidade entre aquilo em que foi treinado e qual é a carga de trabalho actual."

Esse desvio na carga de trabalho representa um imposto oculto sobre o dimensionamento da IA. As empresas aceitam a degradação do desempenho ou investem na reciclagem dos especuladores personalizados. Esse processo captura apenas um instantâneo no tempo e rapidamente fica desatualizado.

Como funcionam os especuladores adaptativos: uma abordagem de modelo duplo

ATLAS usa uma arquitetura de especulador duplo que combina estabilidade com adaptação:

O especulador estático – Um modelo pesado treinado em dados amplos fornece desempenho de linha de base consistente. Serve como um "piso de velocidade."

O especulador adaptativo – Um modelo leve aprende continuamente com o tráfego ao vivo. É especializado em domínios e padrões de uso emergentes.

O controlador consciente da confiança – Uma camada de orquestração escolhe dinamicamente qual especulador usar. Ajusta a especulação "olhar para frente" com base em pontuações de confiança.

"Antes que o especulador adaptativo aprenda alguma coisa, ainda temos o especulador estático para ajudar a fornecer o aumento de velocidade no início," Ben Athiwaratkun, cientista de IA da Collectively AI, explicou ao VentureBeat. "Quando o especulador adaptativo se torna mais confiante, a velocidade aumenta com o tempo."

A inovação técnica reside no equilíbrio entre a taxa de aceitação (com que frequência o modelo alvo concorda com os tokens elaborados) e a latência do projeto. À medida que o modelo adaptativo aprende com os padrões de tráfego, o controlador depende mais do especulador leve e estende a antecipação. Isso aumenta os ganhos de desempenho.

Os usuários não precisam ajustar nenhum parâmetro. "Do lado do usuário, os usuários não precisam girar nenhum botão," Dao disse. "De nossa parte, giramos esses botões para que os usuários ajustem em uma configuração que obtenha uma boa aceleração."

Desempenho que rivaliza com o silício personalizado

Os testes da Collectively AI mostram que o ATLAS atinge 500 tokens por segundo no DeepSeek-V3.1 quando totalmente adaptado. O mais impressionante é que esses números nas GPUs Nvidia B200 correspondem ou excedem chips de inferência especializados, como Groq’s {hardware} personalizado.

"O software program e a melhoria algorítmica são capazes de preencher a lacuna com {hardware} realmente especializado," Dao disse. "Estávamos vendo 500 tokens por segundo nesses modelos enormes que são ainda mais rápidos do que alguns chips personalizados."

A aceleração de 400% que a empresa afirma para inferência representa o efeito cumulativo do conjunto de otimização Turbo da Collectively. A quantização do FP4 oferece 80% de aceleração em relação à linha de base do FP8. O Turbo Speculator estático adiciona outro ganho de 80-100%. O sistema adaptativo está no topo. Cada otimização combina os benefícios das outras.

Comparado com mecanismos de inferência padrão como vLLM ou TensorRT-LLM da Nvidia, a melhoria é substancial. Juntos, a IA compara a linha de base mais forte entre os dois para cada carga de trabalho antes de aplicar otimizações especulativas.

A compensação memória-computação explicada

Os ganhos de desempenho decorrem da exploração de uma ineficiência basic na inferência moderna: desperdício de capacidade computacional.

Dao explicou que normalmente durante a inferência, grande parte do poder computacional não é totalmente utilizado.

"Durante a inferência, que na verdade é a carga de trabalho dominante hoje em dia, você usa principalmente o subsistema de memória," ele disse.

A decodificação especulativa troca computação ociosa por acesso reduzido à memória. Quando um modelo gera um token por vez, ele fica vinculado à memória. A GPU fica ociosa enquanto espera pela memória. Mas quando o especulador propõe cinco tokens e o modelo alvo os verifica simultaneamente, a utilização da computação aumenta enquanto o acesso à memória permanece aproximadamente constante.

"A quantidade complete de computação para gerar cinco tokens é a mesma, mas você só precisava acessar a memória uma vez, em vez de cinco vezes," Dao disse.

Pense nisso como um cache inteligente para IA

Para equipes de infraestrutura familiarizadas com a otimização tradicional de banco de dados, os especuladores adaptativos funcionam como uma camada de cache inteligente, mas com uma diferença essential.

Os sistemas de cache tradicionais, como Redis ou memcached, exigem correspondências exatas. Você armazena exatamente o mesmo resultado da consulta e o recupera quando a consulta específica é executada novamente. Os especuladores adaptativos funcionam de maneira diferente.

"Você pode ver isso como uma forma inteligente de armazenar em cache, não armazenando exatamente, mas descobrindo alguns padrões que você vê," Dao explicou. "Em termos gerais, estamos observando que você está trabalhando com código semelhante, ou trabalhando com código semelhante, você sabe, controlando a computação de maneira semelhante. Podemos então prever o que o grande modelo dirá. Nós apenas ficamos cada vez melhores em prever isso."

Em vez de armazenar respostas exatas, o sistema aprende padrões de como o modelo gera tokens. Ele reconhece que se você estiver editando arquivos Python em uma base de código específica, certas sequências de token se tornarão mais prováveis. O especulador adapta-se a esses padrões, melhorando as suas previsões ao longo do tempo sem necessitar de dados idênticos.

Casos de uso: treinamento de RL e cargas de trabalho em evolução

Dois cenários empresariais beneficiam particularmente dos especuladores adaptativos:

Treinamento de aprendizagem por reforço: Os especuladores estáticos rapidamente saem do alinhamento à medida que a política evolui durante o treinamento. O ATLAS adapta-se continuamente às mudanças na distribuição de políticas.

Cargas de trabalho em evolução: à medida que as empresas descobrem novos casos de uso de IA, a composição da carga de trabalho muda. "Talvez eles tenham começado a usar IA para chatbots, mas então perceberam, ei, ela pode escrever código, então eles começaram a mudar para código," Dao disse. "Ou eles percebem que essas IAs podem realmente chamar ferramentas e controlar computadores e fazer contabilidade e coisas assim."

Em uma sessão de vibração, o sistema adaptativo pode se especializar para a base de código específica que está sendo editada. Estes são arquivos não vistos durante o treinamento. Isso aumenta ainda mais as taxas de aceitação e a velocidade de decodificação.

O que isso significa para as empresas e o ecossistema de inferência

ATLAS já está disponível nos endpoints dedicados da Collectively AI como parte da plataforma, sem custo adicional. Os mais de 800 mil desenvolvedores da empresa (contra 450 mil em fevereiro) têm acesso à otimização.

Mas as implicações mais amplas vão além do produto de um fornecedor. A mudança da otimização estática para a adaptativa representa uma reformulação basic de como as plataformas de inferência deveriam funcionar. À medida que as empresas implantam IA em vários domínios, a indústria precisará ir além dos modelos treinados uma única vez, em direção a sistemas que aprendem e melhoram continuamente.

A Collectively AI historicamente lançou algumas de suas técnicas de pesquisa como código aberto e colaborou com projetos como o vLLM. Embora o sistema ATLAS totalmente integrado seja proprietário, algumas das técnicas subjacentes podem eventualmente influenciar o ecossistema de inferência mais amplo.

Para as empresas que procuram liderar em IA, a mensagem é clara: algoritmos adaptativos em {hardware} comum podem igualar o silício personalizado por uma fração do custo. À medida que esta abordagem amadurece em toda a indústria, a otimização de software program supera cada vez mais o {hardware} especializado.

avots