Ciência e Tecnologia

O reCAPTCHAv2 do Google é apenas exploração de mão de obra, dizem especialistas • st

.

O Google promove seu serviço reCAPTCHA como um mecanismo de segurança para sites, mas pesquisadores afiliados à Universidade da Califórnia, em Irvine, argumentam que ele coleta informações enquanto extrai trabalho humano no valor de bilhões.

O termo CAPTCHA significa “Teste de Turing Público Completamente Automatizado para Distinguir Computadores de Humanos” e, como explica o Google, refere-se a um esquema de autenticação de desafio-resposta que apresenta às pessoas um quebra-cabeça ou uma pergunta que um computador não consegue resolver.

Esses testes têm sido usados ​​por quase duas décadas para combater fraudes e outras formas de abuso automatizado online. Os quebra-cabeças CAPTCHA – que podem envolver texto, imagem, áudio ou desafios comportamentais, como clicar em caixas de seleção – são onipresentes online.

O Google adquiriu o serviço reCAPTCHA em 2009, dois anos após sua estreia.

O gigante das buscas revisou o serviço desde então – o reCAPTCHA v2 chegou em 2014 e o reCAPTCHA v3 em 2018, logo após o encerramento do v1. Embora o v3 seja a versão mais recente, o v2 ainda é usado por quase três milhões de sites.

A utilidade dos desafios do reCAPTCHA parece estar significativamente diminuída em uma era em que os modelos de IA conseguem responder a perguntas do CAPTCHA quase tão bem quanto os humanos.

Mostre-me o dinheiro

Acadêmicos da UC Irvine afirmam que os CAPTCHAs devem ser descartados.

Em um artigo [PDF] intitulado “Dazed & Confused: A Large-Scale Real-World User Study of reCAPTCHAv2”, os autores Andrew Searles, Renascence Tarafder Prapty e Gene Tsudik argumentam que o serviço deve ser abandonado porque não é apreciado pelos usuários, é custoso em termos de tempo e recursos do datacenter e vulnerável a bots — contrariamente ao seu propósito pretendido.

“Acredito que o verdadeiro propósito do reCAPTCHA é coletar informações e trabalho do usuário em sites”, afirmou Andrew Searles, que acabou de concluir seu doutorado e foi o principal autor do artigo, em um e-mail para O registro.

“Se você acredita que o reCAPTCHA está protegendo seu site, você foi enganado. Além disso, essa falsa sensação de segurança veio com um imenso custo de tempo humano e privacidade.”

O artigo, lançado em novembro de 2023, observa que, mesmo em 2016, os pesquisadores conseguiram derrotar os desafios de imagem do reCAPTCHA v2 70 por cento das vezes. O desafio da caixa de seleção do reCAPTCHA v2 é ainda mais vulnerável – os pesquisadores afirmam que ele pode ser derrotado 100 por cento das vezes.

O reCAPTCHA v3 não se saiu melhor. Em 2019, pesquisadores criaram um ataque de aprendizado por reforço que quebra os desafios baseados em comportamento do reCAPTCHAv3 97% das vezes.

“A versão 3 é melhor que a v2, pois é puramente comportamental”, observou Gene Tsudik, professor de ciência da computação na Universidade da Califórnia, Irvine. “Mas, como a v2, não é um verdadeiro CAPTCHA – o que significa que não é ‘público’ e não é um Teste de Turing. É um método baseado em análise comportamental que atribui pontuações ao comportamento do usuário. Portanto, é invasivo à privacidade, pois nós (o público) não sabemos como funciona. É essencialmente uma ‘caixa preta’.

“Esses sistemas foram derrotados antes mesmo de serem introduzidos em escala global”, argumentou Searles. “Problemas de seleção de imagens foram resolvidos por computadores em 2009 (ainda adicionados pelo Google em 2014). Os cookies de terceiros reCATPCHA para detecção comportamental introduziram a vulnerabilidade ‘click-jacking’, tornando mais fácil contorná-los automaticamente.”

Você é o produto

As descobertas da pesquisa dos autores são baseadas em um estudo de usuários conduzido ao longo de 13 meses em 2022 e 2023. Cerca de 9.141 sessões do reCAPTCHAv2 foram capturadas de participantes involuntários e analisadas, em conjunto com uma pesquisa concluída por 108 indivíduos.

Os entrevistados deram ao quebra-cabeça de caixa de seleção do reCAPTCHA v2 78,51 de 100 na Escala de Usabilidade do Sistema, enquanto o quebra-cabeça de imagem foi avaliado em apenas 58,90. “Os resultados demonstram que 40 por cento dos participantes acharam a versão de imagem irritante (ou muito irritante), enquanto <10 por cento acharam a versão de caixa de seleção irritante", explica o artigo.

Mas quando examinadas em conjunto, as interações do reCAPTCHA impõem um custo significativo – parte do qual o Google captura.

“Em termos de custo, estimamos que – durante mais de 13 anos de sua implantação – 819 milhões de horas de tempo humano foram gastas no reCAPTCHA, o que corresponde a pelo menos US$ 6,1 bilhões em salários”, afirmam os autores em seu artigo.

“O tráfego resultante do reCAPTCHA consumiu 134 petabytes de largura de banda, o que se traduz em cerca de 7,5 milhões de kWhs de energia, correspondendo a 7,5 milhões de libras de CO2. Além disso, o Google lucrou potencialmente US$ 888 bilhões com cookies [created by reCAPTCHA sessions] e US$ 8,75–32,3 bilhões por cada venda de seu conjunto total de dados rotulados.”

Questionado se os custos que o Google transfere aos usuários do reCAPTCHA na forma de tempo e esforço são irracionais ou exploradores, Searles apontou para o white paper original sobre CAPTCHAs de Luis von Ahn, Manuel Blum e John Langford, que inclui uma seção intitulada “Roubo de ciclos de humanos”.

“Isso basicamente [summarizes] como os CAPTCHAs criam uma economia exploradora de função onde bots nefastos podem recrutar humanos para completar desafios para eles”, explicou Searles. “Não é razoável fazer alguém resolver um desafio de segurança quando não há segurança adquirida.”

Esse custo deveria ser suportado pelo Google, e não pelos usuários do site, argumentou Searles. “Se um serviço alega detectar bots, então ele deveria detectar bots – especialmente se for um serviço pago.”

Como o artigo aponta, os desafios de rotulagem de imagens existem desde 2004 e, em 2010, houve ataques que conseguiram vencê-los 100% das vezes. Apesar disso, o Google introduziu o reCAPTCHA v2 com um desafio de segurança de reconhecimento de imagem de fallback que havia se mostrado inseguro quatro anos antes.

Isso não faz sentido, argumentam os autores, de uma perspectiva de segurança. Mas faz sentido se o objetivo for obter dados de rotulagem de imagens – os resultados de usuários identificando imagens CAPTCHA – que o Google vende como um serviço de nuvem.

“A conclusão pode ser estendida para que o verdadeiro propósito do reCAPTCHA v2 seja um trabalho gratuito de rotulagem de imagens e uma fazenda de cookies de rastreamento para publicidade e lucro de dados, disfarçada de serviço de segurança”, declara o artigo.

“Eu acho que não há absolutamente NENHUM espaço para problemas difíceis de IA existirem na segurança de computadores”, sugeriu Searles. “Este foi um experimento que melhorou alguma habilidade computacional, mas não há segurança realista ou mensurável alcançada com o uso dessa tecnologia.”

O Google não respondeu a uma solicitação de comentário. ®

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo