Início Tecnologia O novo modelo Gemini 2.5 Laptop Use do Google pode clicar, digitar...

O novo modelo Gemini 2.5 Laptop Use do Google pode clicar, digitar e rolar

37
0

Fotografia / momento de Javier Zayas by way of Getty Photographs

Siga ZDNET: Adicione-nos como fonte preferencial no Google.


Principais conclusões da ZDNET

  • O novo modelo de IA do Google pode interagir diretamente com as UIs dos websites.
  • Ele une ferramentas semelhantes da OpenAI e da Anthropic.
  • A empresa também admitiu suas fraquezas, incluindo alucinações.

O Google DeepMind tem estreou um novo modelo de IA em visualização pública projetada para navegar em um navegador da internet exatamente como um ser humano faria.

Construído sobre o Gemini 2.5 Professional, o novo modelo Laptop Use da empresa pode executar tarefas como clicar, digitar e rolar diretamente em uma página da internet.

Além disso: 5 razões pelas quais uso IA native em minha área de trabalho – em vez de ChatGPT, Gemini ou Claude

Os usuários simplesmente precisam fornecer uma mensagem em linguagem pure – como “Abra a Wikipedia, pesquise ‘Atlântida’ e resuma a história do mito no pensamento ocidental”. O modelo buscará de forma autônoma a URL e as capturas de tela do web site solicitado para analisar a interface do usuário na qual ele precisa atuar e executará a tarefa solicitada passo a passo, ao mesmo tempo em que delineia seu raciocínio e ações em uma caixa de texto facilmente visível aos usuários. Ele também pode responder pedindo confirmação se for instruído a realizar uma tarefa delicada, como fazer uma compra.

A prévia do Gemini 2.5 Laptop Use segue o lançamento de modelos semelhantes de navegação na internet da OpenAI e Anthropic. O Google lançou anteriormente uma extensão experimental do Chrome chamada Challenge Mariner, que também pode agir em nome dos usuários nas páginas da internet.

Como funciona

Gemini 2.5 Laptop Use executa uma função de loop iterativo que permite manter um registro de todas as suas ações recentes em uma interface de usuário específica e determinar sua próxima ação de acordo. Portanto, quanto mais tarefas ele executar em um determinado web site, mais contexto ele terá e mais perfeitamente funcionará.

O Google postou vídeos de demonstração (acelerados 3x) mostrando o modelo fazendo uma atualização de forma autônoma em um web site de gerenciamento de relacionamento com o cliente e reorganizando notas na plataforma Jamboard do Google, que foi descontinuada no remaining do ano passado.

Além disso: o Codex do ChatGPT acaba de receber uma grande atualização que o torna mais poderoso do que nunca – o que há de novo

De acordo com um postagem no blog publicado pelo Google na terça-feira, o novo modelo superou ferramentas semelhantes da Anthropic e OpenAI em termos de precisão e latência, e em “múltiplos benchmarks de controle internet e móvel”, incluindo On-line-Mind2Web, uma estrutura de avaliação para testar o desempenho de agentes de navegação na internet.

Como experimentar

O novo modelo é destinado principalmente a navegadores internet, mas também mostra “forte promessa” em dispositivos móveis, disse o Google. Já está disponível por meio da API Gemini no Google AI e por meio da Vertex AI. UM versão de demonstração também está disponível by way of Browserbase.

Considerações de segurança

O novo modelo também vem com um conjunto de controles de segurança, que o Google afirma que os desenvolvedores podem usar para evitar que ele execute ações indesejadas, como ignorar CAPTCHAs, comprometer a segurança dos dados ou obter o controle de dispositivos médicos. Por exemplo, os desenvolvedores podem instruir o modelo a solicitar a confirmação do usuário antes de executar determinadas ações especificadas.

Quer mais histórias sobre IA? Inscreva-se em nossa tabela de classificação de IA boletim informativo.

A empresa também observou no cartão do sistema do novo modelo que ele “pode apresentar algumas das limitações gerais dos modelos básicos, visto que é baseado no Gemini 2.5 Professional, como alucinações e limitações em torno da compreensão causal, dedução lógica complexa e raciocínio contrafactual”.

Essas limitações são verdadeiras para a maioria dos modelos. No início desta semana, a Anthropic publicou uma nova pesquisa mostrando que muitos modelos de IA de ponta tendiam a denunciar o que interpretavam como informações antiéticas ou ilegais em cenários de teste, mesmo quando as informações supostamente incriminatórias eram na verdade inofensivas.



avots