.
Os meios de comunicação dinamarqueses exigiram que o arquivo da web sem fins lucrativos Common Crawl removesse cópias de seus artigos de conjuntos de dados anteriores e parasse de rastrear seus sites imediatamente. Este pedido foi emitido em meio à crescente indignação sobre como empresas de inteligência artificial como a OpenAI estão usando materiais protegidos por direitos autorais.
O Common Crawl planeja atender à solicitação, emitida pela primeira vez na segunda-feira. O diretor executivo Rich Skrenta diz que a organização “não está equipada” para lutar contra empresas de mídia e editoras nos tribunais.
A Aliança Dinamarquesa pelos Direitos (DRA), uma associação que representa os detentores de direitos de autor na Dinamarca, liderou a campanha. Fez o pedido em nome de quatro meios de comunicação social, incluindo a Berlingske Media e o jornal diário Jyllands-Posten. O jornal New York Times fez um pedido semelhante do Common Crawl no ano passado, antes de entrar com uma ação judicial contra a OpenAI por usar seu trabalho sem permissão. Em seu reclamaçãoo New York Times destacou como os dados do Common Crawl eram o “conjunto de dados de maior peso” no GPT-3.
Thomas Heldrup, chefe de proteção e aplicação de conteúdo da DRA, diz que este novo esforço foi inspirado pelo Times. “O Common Crawl é único no sentido de que vemos tantas grandes empresas de IA usando seus dados”, diz Heldrup. Ele vê seu corpus como uma ameaça às empresas de mídia que tentam negociar com os titãs da IA.
Embora o Common Crawl tenha sido essencial para o desenvolvimento de muitas ferramentas generativas de IA baseadas em texto, ele não foi projetado com a IA em mente. Fundada em 2007, a organização sediada em São Francisco era mais conhecida antes do boom da IA pelo seu valor como ferramenta de investigação. “O Common Crawl está envolvido neste conflito sobre direitos autorais e IA generativa”, diz Stefan Baack, analista de dados da Mozilla Foundation que publicou recentemente um relatório sobre o papel do Common Crawl no treinamento de IA. “Durante muitos anos foi um projeto de pequeno nicho que quase ninguém conhecia.”
Antes de 2023, o Common Crawl não recebia uma única solicitação para editar dados. Agora, além dos pedidos do New York Times e deste grupo de editores dinamarqueses, também está a receber um aumento de pedidos que não foram tornados públicos.
Além deste aumento acentuado nas exigências de edição de dados, o rastreador da web do Common Crawl, CCBot, também é cada vez mais impedido de acumular novos dados dos editores. De acordo com a startup de detecção de IA Originality AI, que frequentemente rastreia o uso de rastreadores da web, mais de 44% dos principais sites de notícias e mídia globais bloqueiam o CCBot. Além do Buzzfeed, que começou a bloqueá-lo em 2018, a maioria dos meios de comunicação proeminentes analisados – incluindo Reuters, The Washington Post e CBC – apenas rejeitaram o rastreador no ano passado. “Eles estão sendo bloqueados cada vez mais”, diz Baack.
A rápida conformidade do Common Crawl com esse tipo de solicitação é motivada pela realidade de manter uma pequena organização sem fins lucrativos funcionando. No entanto, conformidade não significa acordo ideológico. Skrenta vê esse esforço para remover materiais de arquivo de repositórios de dados como o Common Crawl como nada menos que uma afronta à Internet como a conhecemos. “É uma ameaça existencial”, diz ele. “Eles vão matar a web aberta.”
.