Uma nova estrutura desenvolvida por pesquisadores do Google Cloud e da DeepMind visa abordar um dos principais desafios do desenvolvimento de agentes de uso de computador (CUAs): reunir exemplos de treinamento de alta qualidade em escala.
A estrutura, apelidada Assista e aprenda (W&L), aborda o problema de geração de dados de treinamento de uma forma que não requer anotação humana e pode extrair automaticamente demonstrações de vídeos brutos.
Seus experimentos mostram que os dados de W&L gerados podem ser usados para treinar ou ajustar o uso do computador existente e modelos básicos para melhorar seu desempenho em tarefas de uso do computador. Mas igualmente importante, a mesma abordagem pode ser usada para criar aprendizagem em contexto (ICL) para agentes de uso de computador, permitindo que as empresas criem CUAs para tarefas internas sob medida, sem a necessidade de treinamento dispendioso de modelos especializados.
O gargalo de dados do CUA
An online é rica em tutoriais em vídeo e screencasts que descrevem fluxos de trabalho complexos para o uso de aplicativos. Esses vídeos são uma mina de ouro que pode fornecer agentes de uso de computador com conhecimento de domínio e instruções para realizar diferentes tarefas por meio de interações na interface do usuário.
No entanto, antes de poderem ser usados para treinar agentes CUA, estes vídeos precisam ser transformados em trajetórias anotadas (ou seja, um conjunto de descrições de tarefas, capturas de tela e ações), um processo que é proibitivamente caro e demorado quando feito manualmente.
As abordagens existentes para resolver esse gargalo de dados dependem da anotação desses vídeos por meio do uso de modelos de linguagem multimodal, que geralmente resultam em baixa precisão e exemplos defeituosos. Uma abordagem diferente utiliza agentes de auto-jogo que exploram interfaces de usuário de forma autônoma para coletar trajetórias. No entanto, as técnicas que utilizam esta abordagem geralmente criam exemplos simples que não são úteis em situações imprevisíveis do mundo actual.
Como observam os pesquisadores em seu artigo, “no geral, essas abordagens dependem de heurísticas frágeis, são caras, pois dependem de explorações em ambientes reais ou geram demonstrações de baixa complexidade desalinhadas com a intenção humana”.
Assista e aprenda
A estrutura Watch & Be taught tenta enfrentar os desafios da criação de demonstrações CUA repensando a formulação do problema.
Em vez de gerar trajetórias diretamente ou depender de pipelines complexos de vários estágios, os pesquisadores enquadram o problema como um “objetivo de dinâmica inversa”: dadas duas observações consecutivas, prever a ação intermediária que produziu a transição.
Segundo os pesquisadores, esta formulação é “mais fácil de aprender, evita heurísticas artesanais e generaliza de forma robusta entre aplicações”.
A estrutura W&L pode ser dividida em três estágios principais: treinamento de um modelo de dinâmica inversa (IDM), recuperação de vídeos brutos e treinamento de agentes CUA.
Na primeira fase, os pesquisadores usaram agentes para interagir com páginas da internet ativas para criar um grande corpus de 500 mil transições de estado (duas observações consecutivas e a ação que resultou na transição). Eles então usaram esses dados (juntamente com 132.000 transições anotadas por humanos de conjuntos de dados abertos existentes) para treinar um modelo de dinâmica inversa (IDM) que leva em duas observações consecutivas e prevê a ação de transição. Seu IDM treinado, que é um modelo de pequeno transformador, superou os modelos básicos prontos para uso na previsão de ações de transição.
Os pesquisadores então projetaram um pipeline que recupera vídeos de plataformas como o YouTube e os executa por meio de IDM para gerar trajetórias de alta qualidade. O IDM captura quadros de vídeo consecutivos e determina as ações (rolar, clicar) que causaram as mudanças no ambiente, que são então empacotadas em trajetórias anotadas. Usando este método, eles geraram 53.125 trajetórias com rótulos de ação de alta precisão.
Esses exemplos podem ser usados para treinar modelos eficazes de uso de computadores para tarefas específicas. Mas os investigadores também descobriram que as trajetórias extraídas através do IDM podem servir como exemplos de aprendizagem no contexto para melhorar o desempenho dos CUAs em tarefas personalizadas no momento da inferência. Para ICL, eles usam Gemini 2.5 Flash para adicionar anotações de raciocínio adicionais aos exemplos de observação/ação nas trajetórias, que podem então ser inseridas no immediate do agente CUA (geralmente de 3 a 5 exemplos) durante a inferência.
“Essa dupla função (treinamento e orientação contextual) permite uma integração flexível tanto com modelos de código aberto quanto com agentes de uso geral”, escrevem os pesquisadores.
W&L em ação
Para testar a utilidade do W&L, os pesquisadores realizaram uma série de experimentos com modelos de código fechado e aberto no Referência OSWorldque avalia agentes em ambientes reais de desktop e sistema operacional em diferentes tarefas, incluindo produtividade, programação e design.
Para ajuste fino, eles usaram seu corpus de 53.000 trajetórias para treinar dois modelos de código aberto: UI-TARS-1.5, um modelo forte de visão-linguagem-ação de código aberto projetado especificamente para uso em computador, e Qwen 2.5-VLum LLM multimodal aberto.
Para testes de aprendizagem em contexto, eles aplicaram exemplos de W&L a modelos multimodais de uso geral, como Gemini 2.5 Flash, OpenAI o3 e Claude Sonnet 4.
W&L resultou em melhorias no OSWorld em todas as categorias de modelos, incluindo até 3 pontos para ICL em modelos de uso geral e até 11 pontos para modelos de código aberto ajustados.
Mais importante ainda, estes benefícios foram alcançados sem qualquer anotação guide, “demonstrando que os fluxos de trabalho humanos à escala internet podem servir como uma base prática e escalável para avançar os CUAs para a implementação no mundo actual”, escrevem os investigadores.
Isto poderia ter implicações importantes para aplicações do mundo actual, permitindo às empresas transformar os seus conjuntos existentes de vídeos e gravações de conferências em dados de formação para CUAs. Também facilita a geração de novas trajetórias de formação. Tudo o que você precisa fazer é gravar vídeos da execução de diferentes tarefas e anotá-los por um IDM. E com os modelos de fronteira melhorando constantemente e se tornando mais baratos, você pode esperar obter mais dos dados existentes e o campo continua a progredir.











