Ciência e Tecnologia

Amazon está investigando perplexidade sobre alegações de abuso de scraping

.

A divisão de nuvem da Amazon lançou uma investigação sobre a Perplexity AI. A questão é se a inicialização da pesquisa de IA está violando as regras da Amazon Web Services ao copiar sites que tentaram impedi-la de fazê-lo, descobriu a WIRED.

Um porta-voz da AWS, que falou com a WIRED sob a condição de não ser identificado, confirmou a investigação da empresa sobre a Perplexity. A WIRED já havia descoberto que a startup – que apoio do fundo da família Jeff Bezos, Nvidia, e foi recentemente valorizado em US$ 3 bilhões — parece depender de conteúdo de sites raspados que tiveram acesso proibido por meio do Robots Exclusion Protocol, um padrão comum da web. Embora o Robots Exclusion Protocol não seja juridicamente vinculativo, os termos de serviço geralmente são.

O Protocolo de Exclusão de Robôs é um padrão da web com décadas de existência que envolve a colocação de um arquivo de texto simples (como wired.com/robots.txt) em um domínio para indicar quais páginas não devem ser acessadas por bots e rastreadores automatizados. Embora as empresas que utilizam scrapers possam optar por ignorar este protocolo, a maioria tradicionalmente o respeita. O porta-voz da Amazon disse à WIRED que os clientes da AWS devem aderir ao padrão robots.txt ao rastrear sites.

“Os termos de serviço da AWS proíbem os clientes de usar nossos serviços para qualquer atividade ilegal, e nossos clientes são responsáveis ​​por cumprir nossos termos e todas as leis aplicáveis”, disse o porta-voz em comunicado.

O escrutínio das práticas da Perplexity segue um relatório de 11 de junho da Forbes que acusou a startup de roubar pelo menos um de seus artigos. As investigações da WIRED confirmaram a prática e encontraram mais evidências de abuso de scraping e plágio por sistemas vinculados ao chatbot de busca com tecnologia de IA da Perplexity. Engenheiros da Condé Nast, empresa controladora da WIRED, bloqueiam o rastreador da Perplexity em todos os seus sites usando um arquivo robots.txt. Mas a WIRED descobriu que a empresa tinha acesso a um servidor usando um endereço IP não publicado — 44.221.181.252 — que visitou as propriedades da Condé Nast pelo menos centenas de vezes nos últimos três meses, aparentemente para scraping de sites da Condé Nast.

A máquina associada ao Perplexity parece estar envolvida no rastreamento generalizado de sites de notícias que proíbem o acesso de bots ao seu conteúdo. Porta-vozes do Guardian, Forbes e The New York Times também afirmam ter detectado o endereço IP em seus servidores várias vezes.

A WIRED rastreou o endereço IP até uma máquina virtual conhecida como instância Elastic Compute Cloud (EC2) hospedada na AWS, que iniciou sua investigação depois que perguntamos se usar a infraestrutura da AWS para rastrear sites que a proibiam violava os termos de serviço da empresa.

Na semana passada, o CEO da Perplexity, Aravind Srinivas, respondeu primeiro à investigação da WIRED dizendo que as perguntas que fizemos à empresa “refletem um mal-entendido profundo e fundamental de como a Perplexity e a Internet funcionam”. Srinivas então disse à Fast Company que o endereço IP secreto WIRED observou a raspagem de sites da Condé Nast e um site de teste que criamos era operado por uma empresa terceirizada que realiza serviços de rastreamento e indexação da web. Ele se recusou a nomear a empresa citando um acordo de sigilo. Quando questionado se ele diria ao terceiro para parar de rastrear o WIRED, Srinivas respondeu “é complicado”.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo