Início Notícias ‘Jogo de gato e rato’: a IA está pegando conteúdo, mas os...

‘Jogo de gato e rato’: a IA está pegando conteúdo, mas os bloqueadores estão revidando

10
0

A web sempre teve bots.

Mecanismos de busca como o Google, por exemplo, usam “rastreadores” automatizados há décadas para construir índices, para que os websites apareçam quando você pesquisa determinados termos.

Mas uma nova geração de rastreadores, usados ​​para treinar IA generativa, está começando a ameaçar grande parte da economia da net.

Estas tecnologias prejudicam os modelos de negócio de um grande número de web sites e levantam preocupações em matéria de privacidade.

Mas é possível impedir que absorvam o seu materials. Até certo ponto.

A corrida para construir melhores ferramentas de bloqueio

Uma maneira de contornar o enigma da IA ​​é envenenar os dados: adicionar algo ao seu conteúdo que dificulte o aprendizado da IA.

Pesquisadores desenvolveram ferramentas de bloqueio como filtros de imagem que adicionam uma pilha de “ruído” inútil que confunde as IAs, embora ainda pareçam semelhantes ou idênticas aos humanos.

Salil Kanhere, cientista da computação da Universidade de Nova Gales do Sul, alerta que os desenvolvedores de IA estão constantemente em busca de maneiras de contornar essas ferramentas.

“O medo das soluções tecnológicas é que elas possam funcionar hoje, mas depois, dentro de um mês, possam não funcionar mais”, diz o professor Kanhere.

Uma equipe australiana está procurando uma maneira de manter essas ferramentas de bloqueio funcionando.

A sua investigação, que ainda está numa fase inicial, afirma ser um passo em direcção a um conteúdo “provavelmente impossível de aprender”.

Para uma IA, as imagens protegidas são abafadas pelo “ruído”. (Fornecido: CSIRO)

Derek Wang, colaborador do projeto e cientista da computação da CSIRO, diz que a maioria das ferramentas de bloqueio disponíveis são muito específicas: elas são projetadas para impedir que um certo tipo de IA (como um grande modelo de linguagem) treine em um determinado tipo de conteúdo (como texto).

Em vez disso, sua equipe deu um passo atrás e criou um algoritmo que pode avaliar o quão aprendível é qualquer tipo de conteúdo, para qualquer tipo de IA.

“Esta é uma informação muito significativa que pode ajudar os defensores a aperfeiçoar e atualizar as suas defesas”, diz o Dr. Wang.

O algoritmo pode ajudar a construir uma ferramenta de bloqueio muito mais forte, onde o ruído ofusca as partes mais fáceis de aprender do conteúdo.

A equipe demonstrou seu algoritmo usando-o para criar uma ferramenta de geração de ruído para imagens, que o Dr. Wang diz poder “garantir” que tornará a imagem impenetrável para a maioria das IAs.

Diagrama mostrando uma foto com proteção adicionada para que pareça desfocada para uma IA, mas não para uma pessoa.

Dr. Wang diz que a ferramenta poderia eventualmente ser incorporada em websites para que qualquer materials no website tenha proteção automática. (Fornecido: CSIRO)

“Basicamente, a nossa garantia pode excluir cerca de 90% dos ataques”, diz o Dr. Wang.

Ele diz que eles também podem ajustar seu bloqueador para permitir a passagem de mais ou menos informações, se as pessoas quiserem que uma IA tenha uma ideia vaga de suas imagens, mas não dos detalhes.

A equipe demonstraram seu trabalho em uma conferência no início deste ano, e o Dr. Wang diz que vários criadores de imagens on-line entraram em contato para ver se podem usar o algoritmo para proteger seu trabalho.

As pessoas estão muito interessadas nesta possível solução para os seus direitos criativos.

Eles estão se concentrando em imagens no momento, mas o Dr. Wang diz que seria possível usar seu algoritmo básico para desenvolver outros tipos de bloqueadores.

Algumas coisas podem ser mais difíceis de proteger do que outras – como o texto, que depende de algumas dezenas de caracteres, em vez da enorme variação de informações em uma imagem.

O professor Kanhere, que não esteve envolvido no estudo, chama-o de “inteligente” – mas alerta que as IAs ainda podem evoluir para superar estes bloqueios.

O Dr. Wang concorda, mas salienta que a sua equipa também pode melhorar o seu trabalho.

Com o tempo, ele acha que eles poderiam refinar sua teoria para prevenir 99,9% dos adversários da IA.

“Nosso método é um passo inicial para avançar a base teórica nesta área para alcançar coisas realmente impossíveis de aprender”, diz o Dr. Wang.

Faz parte da evolução dos rastreadores e bloqueadores que o professor Kanhere chama de “jogo de gato e rato”.

“Esta é uma boa solução técnica, mas acho que precisamos de um modelo diferente”, diz ele.

Desativando o acesso de IA a websites

Existe uma maneira mais simples de impedir que os rastreadores acessem o conteúdo: peça-lhes que não o façam.

O professor Kanhere diz que os websites normalmente têm um arquivo robots.txt incorporado em sua arquitetura que instrui os rastreadores quais páginas eles podem acessar e quando.

“Os rastreadores devem aderir a tudo o que você coloca lá. Agora, é claro, se eles fazem isso ou não, isso é motivo de debate”, diz o professor Kanhere.

Ele ressalta que os desenvolvedores têm trabalhado em novos padrões para websites e IAs, como o Padrão RSLque as pessoas podem usar em seus próprios websites.

“Isso especificará qual conteúdo um bot de IA pode extrair, que tipo de acordo de licenciamento você gostaria e monetização”, diz o professor Kanhere.

Alguns provedores de websites começaram a incluir bloqueadores de IA em grande escala – como a empresa de infraestrutura de web Cloudflare, que fornece serviços para cerca de um quinto de todos os websites na net.

Em julho, anunciou os websites dos clientes bloqueariam os rastreadores de IA por padrão.

Will Allen, vice-presidente de produtos da Cloudflare, diz que a mudança foi projetada para fornecer aos proprietários de websites a escolha de como seu conteúdo será usado.

Você, como proprietário de um website, pode decidir: ‘Vou permitir ou bloquear’.

Os proprietários de websites ainda podem optar por fornecer seu conteúdo gratuitamente aos rastreadores de IA se quiserem que seu materials apareça nos modelos.

Mas os websites de notícias, por exemplo, podem querer elaborar um modelo de pagamento com empresas de IA, permitindo o acesso ao seu trabalho apenas se forem compensados ​​por isso.

“Vemos um reconhecimento actual do acesso diferenciado a informações, dados e conteúdos em tempo actual como sendo uma incrível vantagem competitiva para as pessoas que estão a construir experiências de IA”, afirma Allen.

As empresas de IA estão respeitando essas regras?

Tudo isso depende da suposição de que os rastreadores de IA agirão de boa fé.

Historicamente, estes modelos não pediam permissão para aceder ao conteúdo, com muitas das maiores empresas de IA no jogo a utilizar resmas de trabalhos protegidos por direitos de autor para treinar os seus primeiros modelos.

Mas Allen pensa que pelo menos os modelos maiores estão a jogar limpo.

“O bem-comportado [crawlers]que é um bom número deles, se autoidentificam.”

Ele diz que algumas empresas de IA ligaram para a Cloudflare quando quiseram acessar determinadas páginas nas quais estavam bloqueadas.

“Se eles estivessem sendo obscuros, eles não se importariam. Eles simplesmente fariam isso.”

Os rastreadores não precisam se identificar como bots administrados pela empresa – eles podem fingir ser usuários humanos e ignorar todas essas restrições.

Quando isso acontece, eles correm o risco de serem sinalizados como um bot malicioso e totalmente bloqueados no website.

“Quando você sai do caminho feliz da autoidentificação, você parece um robô para nós”, diz Allen.

Futuro da Web aberta ‘em risco’

Os resumos de IA provocaram quedas nas visualizações de páginas na Web e, com o surgimento de acessos pagos para compensar a perda de receita publicitária, muitos temem pela mudança no formato da Internet.

Allen quer ver o modelo da Cloudflare nutrindo uma Web ainda aberta.

“A Web é uma invenção incrível e uma das partes mais surpreendentes dela é o fato de que grandes partes foram abertas”, diz ele.

Isso é fenomenal. Está em risco.

O professor Kanhere diz que o modelo da Cloudflare “é um bom começo”, mas ainda existem falhas.

Aumentar as defesas contra bots pode impedir que alguns usuários humanos visitem um website. E as empresas de IA que não querem pagar pelo conteúdo ainda podem extrair versões menos precisas dele de outros lugares.

“Acho que a questão é: vale a pena o esforço dessas empresas para tentar subverter isso?” Professor Kanhere diz.

Se as empresas de IA decidirem que não vale a pena pagar pelo materials, o professor Kanhere prevê que voltaremos imediatamente ao jogo de gato e rato dos blocos tecnológicos.

Mas o seu pressentimento é que as empresas de IA concordarão com algumas condições, semelhantes aos acordos de licenciamento da OpenAI com editores de notícias.

De qualquer forma, à medida que as páginas da net recebem um número cada vez maior de visitantes de bots, as visualizações humanas estão seguindo na direção oposta.

“Talvez [licensing deals] seja mais amplamente adotado e não teremos que repensar toda a Web”, diz o professor Kanhere.

“Mas certamente naqueles dias em que as pessoas acessam websites reais – infelizmente, isso parece ter diminuído bastante.”

avots

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui