.
A Wikimedia Foundation, a organização guarda -chuva da Wikipedia e uma dúzia outro Projetos de conhecimento de crowdsourcing, disse na quarta -feira que o consumo de largura de banda para downloads multimídia de Wikimedia Commons aumentou 50% desde janeiro de 2024.
A razão, a roupa escreveu em um Postagem do blog Terça-feira, não é devido à crescente demanda dos humanos sedentos de conhecimento, mas de raspadores automatizados e famintos de dados que desejam treinar modelos de IA.
“Nossa infraestrutura é construída para sustentar picos de trânsito repentinos de seres humanos durante eventos de alto interesse, mas a quantidade de tráfego gerada pelos robôs é sem precedentes e apresenta riscos e custos crescentes”, diz o Post.
O Wikimedia Commons é um repositório gratuitamente acessível de imagens, vídeos e arquivos de áudio que estão disponíveis em licenças abertas ou que estão em domínio público.
Desejando, a Wikimedia diz que quase dois terços (65%) do tráfego mais “caro”-ou seja, o mais intensivo de recursos em termos do tipo de conteúdo consumido-era de bots. No entanto, apenas 35% das visualizações gerais de página vêm desses bots. A razão para essa disparidade, de acordo com a Wikimedia, é que o conteúdo frequentemente acessado permanece mais próximo do usuário em seu cache, enquanto outros conteúdos acessados com menos frequência são armazenados mais distantes no “Core Data Center”, que é mais caro para servir o conteúdo. Esse é o tipo de conteúdo que os bots normalmente procuram.
“Enquanto os leitores humanos tendem a se concentrar em tópicos específicos – muitas vezes semelhantes -, os rastreadores tendem a ‘ler’ um número maior de páginas e a visitar também as páginas menos populares”, escreve Wikimedia. “Isso significa que esses tipos de solicitações têm maior probabilidade de avançar para o principal datacenter, o que o torna muito mais caro em termos de consumo de nossos recursos”.
O longo e a falta de tudo isso é que a equipe de confiabilidade do site da Wikimedia Foundation está tendo que gastar muito tempo e recursos bloqueando os rastreadores para evitar a interrupção dos usuários regulares. E tudo isso antes de considerarmos os custos da nuvem que a fundação enfrenta.
Na verdade, isso representa parte de uma tendência de rápido crescimento que está ameaçando a própria existência da Internet aberta. No mês passado, engenheiro de software e advogado de código abertoDrew Devault lamentou o fato Que os rastreadores da AI ignorem arquivos “robots.txt” projetados para afastar o tráfego automatizado. E “Engenheiro PragmáticoGregory russo também reclamou Na semana passada, os raspadores de AI de empresas como a Meta elevaram as demandas de largura de banda por seus próprios projetos.
Enquanto infraestrutura de código aberto, em particular, está na linha de tiroos desenvolvedores estão lutando com “Cleverness and Vengeance”, como escreveu o Strong The One na semana passada. Algumas empresas de tecnologia também estão fazendo a sua parte para resolver o problema – Cloudflare, por exemplo, recentemente lançou a AI Labyrinthque usa conteúdo gerado pela IA para desacelerar os rastreadores.
No entanto, é muito um jogo de gato e rato que pode forçar muitos editores a se esconder para se esconder atrás de Logins e Paywalls-para o prejuízo de todos que usam a web hoje.
.