.

Sem anúncio, a OpenAI recentemente adicionou detalhes sobre seu rastreador da web, GPTBot, ao seu site de documentação online. GPTBot é o nome do agente do usuário que a empresa usa para recuperar páginas da Web para treinar os modelos de IA por trás do ChatGPT, como o GPT-4. No início desta semana, alguns sites anunciaram rapidamente sua intenção de bloquear o acesso do GPTBot ao seu conteúdo.
Na nova documentação, a OpenAI diz que as páginas da Web rastreadas com o GPTBot “podem ser usadas para melhorar modelos futuros” e que permitir que o GPTBot acesse seu site “pode ajudar os modelos de IA a se tornarem mais precisos e melhorar suas capacidades gerais e segurança”.
A OpenAI afirma ter implementado filtros garantindo que as fontes por trás de paywalls, aquelas que coletam informações de identificação pessoal ou qualquer conteúdo que viole as políticas da OpenAI não sejam acessadas pelo GPTBot.
A notícia de ser capaz de bloquear potencialmente os arranhões de treinamento do OpenAI (se eles os honrarem) chega tarde demais para afetar os dados de treinamento atuais do ChatGPT ou GPT-4, que foram raspados sem anúncio anos atrás. A OpenAI coletou os dados até setembro de 2021, que é o limite atual de “conhecimento” para os modelos de linguagem da OpenAI.
Vale a pena notar que as novas instruções não deve impedir que as versões de navegação na web dos plug-ins ChatGPT ou ChatGPT acessem sites atuais para transmitir informações atualizadas ao usuário. Esse ponto não foi explicado na documentação e entramos em contato com a OpenAI para esclarecimentos.
A resposta está em robots.txt
De acordo com a documentação da OpenAI, o GPTBot será identificável pelo token do agente do usuário “GPTBot”, com sua string completa sendo “Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatível; GPTBot/1.0; +https://openai.com /gptbot)”.
Os documentos do OpenAI também fornecem instruções sobre como impedir que o GPTBot rastreie sites usando o arquivo robots.txt padrão do setor, que é um arquivo de texto que fica no diretório raiz de um site e instrui os rastreadores da Web (como os usados pelos mecanismos de pesquisa ) para não indexar o site.
É tão fácil quanto adicionar essas duas linhas ao arquivo robots.txt de um site:
User-agent: GPTBot Disallow: /
A OpenAI também diz que os administradores podem restringir o GPTBot de certas partes do site em robots.txt com diferentes tokens:
User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/
Além disso, a OpenAI forneceu os blocos de endereço IP específicos a partir dos quais o GPTBot estará operando, que também podem ser bloqueados por firewalls.
Apesar dessa opção, bloquear o GPTBot não garantirá que os dados de um site não acabem treinando todos os modelos de IA do futuro. Além dos problemas de raspadores que ignoram arquivos robots.txt, existem outros grandes conjuntos de dados de sites raspados (como The Pile) que não são afiliados ao OpenAI. Esses conjuntos de dados são comumente usados para treinar LLMs de código aberto (ou fonte disponível), como o Llama 2 da Meta.
Alguns sites reagem com pressa
Embora seja um grande sucesso do ponto de vista tecnológico, o ChatGPT também gerou polêmica pela forma como raspou dados protegidos por direitos autorais sem permissão e concentrou esse valor em um produto comercial que contorna o modelo típico de publicação online. A OpenAI foi acusada de (e processada por) plágio nesse sentido.
Conseqüentemente, não é surpreendente ver algumas pessoas reagindo à notícia de poder bloquear potencialmente seu conteúdo de futuros modelos GPT com uma espécie de prazer reprimido. Por exemplo, na terça-feira, VentureBeat observou que The Verge, o escritor da Substack Casey Newton e Neil Clarke da Clarkesworld, todos disseram que bloqueariam o GPTBot logo após a divulgação do bot.
Mas para grandes operadores de sites, a escolha de bloquear rastreadores de modelo de linguagem grande (LLM) não é tão fácil quanto parece. Tornar alguns LLMs cegos para certos dados do site deixará lacunas de conhecimento que podem servir muito bem a alguns sites (como sites que não querem perder visitantes se o ChatGPT fornecer suas informações para eles), mas também pode prejudicar outros. Por exemplo, bloquear o conteúdo de futuros modelos de IA pode diminuir a pegada cultural de um site ou marca se os chatbots de IA se tornarem uma interface de usuário principal no futuro. Como um experimento mental, imagine uma empresa on-line declarando que não queria que seu site fosse indexado pelo Google no ano de 2002 – uma atitude autodestrutiva quando esse era o caminho mais popular para encontrar informações on-line.
Ainda é cedo no jogo de IA generativa e não importa para onde a tecnologia vá – ou quais sites individuais tentem optar por não participar do treinamento de modelo de IA – pelo menos a OpenAI está oferecendo a opção.
.