Início Tecnologia A aposta do Vale do Silício é grande em ‘ambientes’ para treinar...

A aposta do Vale do Silício é grande em ‘ambientes’ para treinar agentes de IA

5
0

Durante anos, os grandes CEOs de tecnologia divulgaram visões de agentes de IA que podem usar aplicativos de software program autonomamente para concluir tarefas para as pessoas. Mas aceite os agentes da IA ​​do consumidor de hoje para dar uma volta, seja o agente de chatgpt da Openai ou o cometa da Perplexity, e você perceberá rapidamente o quão limitada a tecnologia ainda é. Tornar os agentes de IA mais robustos pode levar um novo conjunto de técnicas que o setor ainda está descobrindo.

Uma dessas técnicas está simulando cuidadosamente os espaços de trabalho onde os agentes podem ser treinados em tarefas de várias etapas-conhecidas como ambientes de aprendizado de reforço (RL). Assim como os conjuntos de dados rotulados alimentados pela última onda de IA, os ambientes RL estão começando a parecer um elemento crítico no desenvolvimento de agentes.

Pesquisadores, fundadores e investidores da IA ​​dizem ao TechCrunch que os principais laboratórios de IA agora estão exigindo mais ambientes de RL, e não há escassez de startups que esperam fornecê -los.

“Todos os grandes laboratórios de IA estão construindo ambientes RL internamente”, disse Jennifer Li, parceira geral da Andreessen Horowitz, em entrevista à TechCrunch. “Mas, como você pode imaginar, criar esses conjuntos de dados é muito complexo, para que os laboratórios de IA também estejam analisando fornecedores de terceiros que podem criar ambientes e avaliações de alta qualidade. Todo mundo está olhando para esse espaço”.

O impulso para os ambientes RL cunhou uma nova classe de startups bem financiadas, como mecanizar trabalho e intelecto principal, que pretendem liderar o espaço. Enquanto isso, grandes empresas de etiqueta de dados como Mercor e Surge dizem que estão investindo mais em ambientes RL para acompanhar as mudanças do setor de conjuntos de dados estáticos para simulações interativas. Os principais laboratórios estão considerando investir muito também: de acordo com as informações, os líderes da Antrópica discutiram gastar mais do que US $ 1 bilhão em ambientes RL no próximo ano.

A esperança para investidores e fundadores é que uma dessas startups emerge como a “IA da escala para ambientes”, referindo -se à potência de rotulagem de dados de US $ 29 bilhões que ligou a period do chatbot.

A questão é se os ambientes RL realmente empurrarão a fronteira do progresso da IA.

Evento do TechCrunch

São Francisco
|
27-29 de outubro de 2025

O que é um ambiente RL?

Na sua essência, os ambientes RL são base de treinamento que simulam o que um agente de IA estaria fazendo em um aplicativo de software program actual. Um fundador descreveu construí -los em Entrevista recente “Como criar um videogame muito chato.”

Por exemplo, um ambiente pode simular um navegador Chrome e uma tarefa de um agente de IA de comprar um par de meias na Amazon. O agente é classificado em seu desempenho e enviou um sinal de recompensa quando é bem -sucedido (neste caso, comprando um par de meias dignas).

Embora essa tarefa pareça relativamente simples, há muitos lugares onde um agente de IA pode ser tropeçado. Pode se perder navegando pelos menus suspensos da página da internet ou comprar muitas meias. E como os desenvolvedores não podem prever exatamente o que o Flip A Agent vai levar, o próprio ambiente deve ser robusto o suficiente para capturar qualquer comportamento inesperado e ainda fornecer suggestions útil. Isso torna os ambientes de construção muito mais complexos do que um conjunto de dados estáticos.

Alguns ambientes são bastante robustos, permitindo que os agentes de IA usem ferramentas, acessem a Web ou usem vários aplicativos de software program para concluir uma determinada tarefa. Outros são mais estreitos, com o objetivo de ajudar um agente a aprender tarefas específicas em aplicativos de software program corporativo.

Embora os ambientes RL sejam a coisa quente no Vale do Silício agora, há muito precedente para usar essa técnica. Um dos primeiros projetos do Openai em 2016 foi a construção “RL academias”Que eram bastante semelhantes à concepção moderna dos ambientes. No mesmo ano, o Google Deepmind treinou ALPHAGO – Um sistema de IA que poderia vencer um campeão mundial no jogo de tabuleiro, vá – usando técnicas de RL dentro de um ambiente simulado.

O que é único nos ambientes de hoje é que os pesquisadores estão tentando criar agentes de IA que usam computador com grandes modelos de transformadores. Ao contrário do AlphaGo, que period um sistema de IA especializado que trabalha em ambientes fechados, os agentes de IA de hoje são treinados para ter recursos mais gerais. Hoje, os pesquisadores da IA ​​têm um ponto de partida mais forte, mas também um objetivo complicado, onde mais pode dar errado.

Um campo lotado

Empresas de rotulagem de dados da IA, como Scale AI, Surge e Mercor, estão tentando encontrar o momento e criar ambientes de RL. Essas empresas têm mais recursos do que muitas startups no espaço, bem como relacionamentos profundos com os laboratórios de IA.

O CEO da Surge, Edwin Chen, disse ao TechCrunch que ele viu recentemente um “aumento significativo” na demanda por ambientes de RL nos laboratórios de IA. Surge – que supostamente gerou US $ 1,2 bilhão em receita No ano passado, ao trabalhar com laboratórios de IA como OpenAI, Google, Anthropic e Meta – recentemente uma nova organização interna, especificamente encarregada de criar ambientes de RL, disse ele.

Brand atrás de Surge está Mercor, uma startup avaliada em US $ 10 bilhões, que também trabalhou com o OpenAi, Meta e Antrópico. A Mercor está lançando investidores em seus ambientes de construção de negócios para tarefas específicas de domínio, como codificação, assistência médica e direito, de acordo com materiais de advertising vistos pelo TechCrunch.

O CEO da Mercor, Brendan Foody, disse ao TechCrunch em uma entrevista que “poucos entendem o quão grande é a oportunidade em torno dos ambientes RL”.

A IA em escala usou para dominar o espaço de rotulagem de dados, mas perdeu terreno desde que a Meta investiu US $ 14 bilhões e contratou seu CEO. Desde então, o Google e o OpenAI abandonaram a IA de escala como cliente, e a startup até enfrenta a concorrência para o trabalho de rotulagem de dados dentro da Meta. Mas ainda assim, a escala está tentando atender ao momento e construir ambientes.

“Esta é apenas a natureza do negócio [Scale AI] está dentro ”, disse Chetan Rane, escala do chefe de produto da IA ​​para agentes e ambientes de RL.“ A escala provou sua capacidade de se adaptar rapidamente. Fizemos isso nos primeiros dias de veículos autônomos, nossa primeira unidade de negócios. Quando o ChatGPT foi lançado, a AI em escala adaptada a isso. E agora, mais uma vez, estamos nos adaptando a novos espaços de fronteira, como agentes e ambientes. ”

Alguns jogadores mais novos estão se concentrando exclusivamente em ambientes desde o início. Entre eles está o Mecanize Work, uma startup fundada há cerca de seis meses com o objetivo audacioso de “automatizar todos os empregos”. No entanto, o co-fundador Matthew Barnett diz ao TechCrunch que sua empresa está começando com os ambientes RL para agentes de codificação de IA.

O Mecanize Work visa fornecer aos laboratórios IA um pequeno número de ambientes RL robustos, diz Barnett, em vez de empresas de dados maiores que criam uma ampla gama de ambientes RL simples. Até este ponto, a startup está oferecendo engenheiros de software program Salários de US $ 500.000 Para construir ambientes de RL – muito mais alto que um contratado por hora poderia ganhar trabalho na escala IA ou surto.

O Mecanize Work já trabalhou com Anthropic em ambientes RL, duas fontes familiarizadas com o assunto disseram ao TechCrunch. Mecanizar trabalho e antropia se recusaram a comentar a parceria.

Outras startups estão apostando que os ambientes RL serão influentes fora dos laboratórios de IA. O Prime Intelect – uma startup apoiada pelo pesquisador de IA Andrej Karpathy, Founders Fund e Menlo Ventures – está visando desenvolvedores menores com seus ambientes de RL.

No mês passado, o intelecto principal lançou um RL Ambientes Hub, que pretende ser um “rosto abraçando para ambientes RL”. A idéia é dar aos desenvolvedores de código aberto acesso aos mesmos recursos que os grandes laboratórios de IA têm e vender esses desenvolvedores acesso a recursos computacionais no processo.

O treinamento geralmente capaz em ambientes RL pode ser mais caro computacional do que as técnicas anteriores de treinamento de IA, de acordo com o principal pesquisador do intelecto Will Brown. Juntamente com as startups construindo ambientes RL, há outra oportunidade para os provedores de GPU que podem alimentar o processo.

“Os ambientes RL serão muito grandes para qualquer empresa dominar”, disse Brown em entrevista. “Parte do que estamos fazendo é apenas tentar criar uma boa infraestrutura de código aberto em torno dela. O serviço que vendemos é computação, por isso é uma ONRAMP conveniente para usar as GPUs, mas estamos pensando nisso mais a longo prazo”.

Vai escalar?

A questão em aberto em torno dos ambientes RL é se a técnica escalará como os métodos anteriores de treinamento de IA.

A aprendizagem de reforço alimentou alguns dos maiores saltos da IA ​​no ano passado, incluindo modelos como O1 Open e Claude Opus 4 da Apenai. Esses são avanços particularmente importantes, porque os métodos usados ​​anteriormente para melhorar os modelos de IA agora estão mostrando retornos decrescentes.

Os ambientes fazem parte da aposta maior da AI Labs no RL, que muitos acreditam que continuarão a impulsionar o progresso à medida que adicionam mais dados e recursos computacionais ao processo. Alguns dos pesquisadores do OpenAI por trás da O1 disseram anteriormente ao TechCrunch que a empresa investiu originalmente em modelos de raciocínio de IA-que foram criados através de investimentos em RL e computação de tempo de teste-porque eles achavam que seria muito bem.

A melhor maneira de escalar a RL permanece incerta, mas os ambientes parecem um candidato promissor. Em vez de simplesmente recompensar os chatbots pelas respostas de texto, eles permitem que os agentes operem em simulações com ferramentas e computadores à sua disposição. Isso é muito mais intensivo em recursos, mas potencialmente mais gratificante.

Alguns são céticos de que todos esses ambientes RL dão certo. Ross Taylor, um ex-líder de pesquisa da IA ​​com a Meta That co-fundando o raciocínio geral, diz ao TechCrunch que os ambientes RL são propensos a recompensar hackers. Este é um processo no qual os modelos de IA trapaceiam para obter uma recompensa, sem realmente executar a tarefa.

“Acho que as pessoas estão subestimando o quão difícil é escalar ambientes”, disse Taylor. “Até o melhor publicamente disponível [RL environments] Normalmente não funciona sem modificação séria. ”

O chefe de engenharia da Openai para seus negócios de API, Sherwin Wu, disse em um Podcast recente que ele period “curto” nas startups do ambiente RL. Wu observou que é um espaço muito competitivo, mas também que a pesquisa da IA ​​está evoluindo tão rapidamente que é difícil servir bem os laboratórios da IA.

Karpathy, um investidor no intelecto principal que chamou os ambientes de RL de um avanço potencial, também manifestou cautela para o espaço da RL de maneira mais ampla. Em um Postagem em xele levantou preocupações sobre quanto mais o progresso da IA ​​pode ser espremido em RL.

“Sou otimista em ambientes e interações agênticas, mas estou tendo tendo o aprendizado de reforço especificamente”, disse Karpathy.

avots

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui