Os rastreadores da AI causam demandas de largura de banda da Wikimedia Commons para aumentar 50%

A Wikimedia Foundation, a organização guarda -chuva da Wikipedia e uma dúzia outro Projetos de conhecimento de crowdsourcing, disse na quarta -feira que o consumo de largura de banda para downloads multimídia de Wikimedia Commons aumentou 50% desde janeiro de 2024.

A razão, a roupa escreveu em um Postagem do blog Terça-feira, não é devido à crescente demanda dos humanos sedentos de conhecimento, mas de raspadores automatizados e famintos de dados que desejam treinar modelos de IA.

“Nossa infraestrutura é construída para sustentar picos de trânsito repentinos de seres humanos durante eventos de alto interesse, mas a quantidade de tráfego gerada pelos robôs é sem precedentes e apresenta riscos e custos crescentes”, diz o Post.

O Wikimedia Commons é um repositório gratuitamente acessível de imagens, vídeos e arquivos de áudio que estão disponíveis em licenças abertas ou que estão em domínio público.

Desejando, a Wikimedia diz que quase dois terços (65%) do tráfego mais “caro”-ou seja, o mais intensivo de recursos em termos do tipo de conteúdo consumido-era de bots. No entanto, apenas 35% das visualizações gerais de página vêm desses bots. A razão para essa disparidade, de acordo com a Wikimedia, é que o conteúdo frequentemente acessado permanece mais próximo do usuário em seu cache, enquanto outros conteúdos acessados com menos frequência são armazenados mais distantes no “Core Data Center”, que é mais caro para servir o conteúdo. Esse é o tipo de conteúdo que os bots normalmente procuram.

“Enquanto os leitores humanos tendem a se concentrar em tópicos específicos – muitas vezes semelhantes -, os rastreadores tendem a ‘ler’ um número maior de páginas e a visitar também as páginas menos populares”, escreve Wikimedia. “Isso significa que esses tipos de solicitações têm maior probabilidade de avançar para o principal datacenter, o que o torna muito mais caro em termos de consumo de nossos recursos”.

O longo e a falta de tudo isso é que a equipe de confiabilidade do site da Wikimedia Foundation está tendo que gastar muito tempo e recursos bloqueando os rastreadores para evitar a interrupção dos usuários regulares. E tudo isso antes de considerarmos os custos da nuvem que a fundação enfrenta.

Na verdade, isso representa parte de uma tendência de rápido crescimento que está ameaçando a própria existência da Internet aberta. No mês passado, engenheiro de software e advogado de código abertoDrew Devault lamentou o fato Que os rastreadores da AI ignorem arquivos “robots.txt” projetados para afastar o tráfego automatizado. E “Engenheiro PragmáticoGregory russo também reclamou Na semana passada, os raspadores de AI de empresas como a Meta elevaram as demandas de largura de banda por seus próprios projetos.

Enquanto infraestrutura de código aberto, em particular, está na linha de tiroos desenvolvedores estão lutando com “Cleverness and Vengeance”, como escreveu o Strong The One na semana passada. Algumas empresas de tecnologia também estão fazendo a sua parte para resolver o problema – Cloudflare, por exemplo, recentemente lançou a AI Labyrinthque usa conteúdo gerado pela IA para desacelerar os rastreadores.

No entanto, é muito um jogo de gato e rato que pode forçar muitos editores a se esconder para se esconder atrás de Logins e Paywalls-para o prejuízo de todos que usam a web hoje.

Etiquetas

Astaabril 2, 2025

0 2 minutos de leitura

Mostrar mais

Ler o Próximo

Os rastreadores da AI causam demandas de largura de banda da Wikimedia Commons para aumentar 50%

Asta

Ler o Próximo

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Deixe um comentário Cancelar resposta

Ler o Próximo

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA ​​levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Artigos relacionados

Deixe um comentário Cancelar resposta

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA