.
Lar > Pirataria >
O Arquivo de Anna descartou o WorldCat, o maior catálogo de biblioteca do mundo, em um esforço para ajudar a preservar cópias digitais de todos os livros do mundo. O meta motor de busca está bem ciente dos riscos legais, mas acredita que vale a pena correr estes para preservar o legado escrito da humanidade. Além disso, o banco de dados do arquivo despertou o interesse de desenvolvedores de IA e também de equipes de LLM.
Há alguns anos, a pirataria de livros era considerada uma atividade marginal que raramente chegava aos noticiários, mas os tempos mudaram.
No ano passado, o Departamento de Justiça dos EUA teve como alvo a popular biblioteca shadow Z-Library, acusando-a de violação em massa de direitos autorais. Dois dos supostos operadores do site foram presos e seu processo ainda está pendente.
Nos últimos meses, bibliotecas paralelas também foram citadas em outros processos. Os editores processaram Libgen por níveis “impressionantes” de infração, por exemplo. Ao mesmo tempo, vários processos acusaram a OpenAI de usar Libgen e outras bibliotecas não autorizadas para treinar seus grandes modelos de linguagem.
Estes esforços legais colocaram os operadores das bibliotecas paralelas sob forte pressão, mas elas permanecem online, pelo menos por enquanto. Na verdade, a repressão à Z-Library impulsionou um novo player no mix no ano passado; Arquivo de Anna.
O arquivo de Anna se expande
Anna’s Archive é um mecanismo de metabusca para fontes de pirataria de livros e bibliotecas ocultas. O site foi lançado dias depois da Z-Library ter sido alvo de ataques em novembro passado, para garantir e facilitar a disponibilidade de livros e artigos ao público em geral.

Com mais de 20 milhões de livros indexados e quase 100 milhões de documentos – muitos dos quais são compartilhados sem permissão – o Arquivo de Anna já percorreu um longo caminho. Isto não passou despercebido ao público em geral, já que o mecanismo de metabusca tem mais de 12 milhões de visitas mensais, de acordo com estimativas recentes de tráfego.
Para o Arquivo de Anna, tudo isso é apenas o começo. As pessoas por trás do site pretendem desempenhar um papel crucial na preservação de todos os livros disponíveis no mundo, mesmo que isso signifique estar em desacordo com as leis de direitos autorais.
Raspando os mais de bilhões de recordes do WorldCat
Esta semana, o mecanismo de busca anunciou um novo marco que deve ajudá-lo a atingir esse objetivo final. Nos últimos meses, o Anna’s Archive tem vasculhado secretamente o WorldCat, o maior banco de dados de metadados de livros do mundo.
O WorldCat é administrado pela organização sem fins lucrativos OCLC e trabalha com dezenas de milhares de bibliotecas em todo o mundo. Seu banco de dados é proprietário e não está disponível gratuitamente, mas o Anna’s Archive conseguiu contornar as restrições e disponibilizar gratuitamente sua própria cópia.
“Mesmo que a OCLC seja uma organização sem fins lucrativos, seu modelo de negócios exige a proteção de seu banco de dados. Bem, amigos da OCLC, lamentamos dizer que estamos doando tudo”, observa Anna’s Archive.
O mecanismo de metabusca diz que conseguiu coletar impressionantes três terabytes de metadados. O conjunto de dados inclui 1,3 bilhão de IDs únicos que, após a remoção de duplicatas e outros ruídos, equivalem a 700 milhões de registros únicos.
Gol Superior
O usuário médio provavelmente não está especialmente interessado em baixar metadados; eles querem livros. No entanto, o Arquivo de Anna acredita que esses registros ajudarão a atingir seu objetivo final.
“Acreditamos que este lançamento representa um marco importante no mapeamento de todos os livros do mundo. Agora podemos trabalhar na criação de uma lista TODO de todos os livros que ainda precisam ser preservados.
“Esse é um empreendimento enorme que requer muitas pessoas e instituições trabalhando nele, tanto bibliotecas legais quanto bibliotecas paralelas, e esperamos ser uma pedra angular nesse esforço”, Anna informa ao Strong The One.
Raspar o WorldCat é apenas o primeiro passo. O próximo passo é colocar essas informações em prática e descobrir quão completas são as ofertas atuais da biblioteca.
Entendendo os dados
Os dados do WorldCat não se limitam apenas a livros, mas também incluem músicas, vídeos e artigos online. Isso precisa ser limpo e desduplicado, o que requer algumas habilidades avançadas em ciência de dados.
“É por isso que procuramos envolver a comunidade e estamos organizando a miniconcorrência para cientistas de dados. É um conjunto de dados enorme e precisamos de ajuda”, diz Anna.

Em uma postagem no blog anunciando as novas mudanças e a competição, o mecanismo de metabusca também observa que os pesquisadores de IA demonstraram interesse no projeto. Isto faz sentido, pois grandes bibliotecas são ideais para treinar LLMs.
IA e riscos legais
Acredita-se que muitas ferramentas comerciais de IA, incluindo ChatGPT da OpenAI, foram treinadas em livros de bibliotecas sombra. Isso desencadeou uma enxurrada de ações judiciais por violação de direitos autorais em andamento.
Neste momento, ainda há muita incerteza sobre quais os dados que podem ser utilizados e em que condições, mas os tribunais e os legisladores oferecerão mais orientações sobre esse assunto nos próximos anos.
A incerteza não impediu que grupos de IA entrassem em contato com o Anna’s Archive, que recebe e-mails de criadores de LLM todos os dias e está trabalhando ativamente com várias partes não identificadas.
Escusado será dizer que executar os maiores mecanismos de pesquisa da biblioteca shadow não é isento de riscos. Editores e autores provavelmente veem o Arquivo de Anna como uma operação massiva de pirataria e ameaças legais estão constantemente surgindo.
O Arquivo de Anna está bem ciente desses riscos e está “obviamente muito preocupado”. No entanto, a equipe por trás do site acredita que vale a pena correr esses riscos no esquema mais amplo das coisas.
“Acreditamos que esforços como o nosso para preservar o legado da humanidade deveriam ser totalmente legais e que os direitos autorais são muito rígidos. Mas, infelizmente, isso não acontecerá. Tomamos todas as precauções. Esta missão é tão importante que vale a pena correr os riscos”, conclui Anna.
.