Ciência e Tecnologia

Abraçando os tokens da API Face expostos, grandes projetos vulneráveis ​​• Strong The One

.

Atualizada Os tokens de API dos gigantes da tecnologia Meta, Microsoft, Google, VMware e outros foram encontrados expostos no Hugging Face, abrindo-os para possíveis ataques à cadeia de suprimentos.

Pesquisadores da Lasso Security encontraram mais de 1.500 tokens de API expostos na plataforma de código aberto de ciência de dados e aprendizado de máquina – o que lhes permitiu obter acesso a 723 contas de organizações.

Na grande maioria dos casos (655), os tokens expostos tinham permissões de gravação que permitiam modificar arquivos nos repositórios da conta. Um total de 77 organizações foram expostas desta forma, incluindo Meta, EleutherAI e BigScience Workshop – que administram os projetos Llama, Pythia e Bloom, respectivamente.

As três empresas foram contactadas por Strong The One para comentar, mas Meta e BigScience Workshop não responderam no momento da publicação, embora todos tenham fechado as lacunas logo após serem notificados.

Hugging Face é semelhante ao GitHub para entusiastas de IA e hospeda uma infinidade de projetos importantes. Mais de 250.000 conjuntos de dados estão armazenados lá e mais de 500.000 modelos de IA também.

Os pesquisadores dizem que se os invasores tivessem explorado os tokens de API expostos, isso poderia ter levado a roubar dados, envenenar dados de treinamento ou roubar modelos completamente, impactando mais de 1 milhão de usuários.

Apenas em seu próprio trabalho, os pesquisadores afirmam que conseguiram o acesso necessário para modificar 14 conjuntos de dados diferentes, com dezenas de milhares de downloads por mês.

Ataques de envenenamento de dados desse tipo estão entre as ameaças mais críticas que a IA e o ML enfrentam à medida que sua importância cresce, diz Forcepoint. O ataque está entre os 10 principais riscos do OWASP para LLMs e pode levar a uma série de consequências.

Os filtros anti-spam do Google para Gmail são eficazes devido aos modelos treinados de forma confiável que alimentam o recurso, mas estes foram comprometidos em várias ocasiões no passado para enviar e-mails maliciosos aparentemente benignos para as caixas de entrada dos usuários.

Outro cenário hipotético em que o envenenamento de dados poderia ter um sério impacto organizacional seria se o conjunto de dados que designa diferentes tipos de tráfego de rede fosse sabotado. Se o tráfego de rede não for identificado corretamente como e-mail, navegação na Web, etc., isso poderá levar a recursos mal alocados e possíveis problemas de desempenho da rede.

Os pesquisadores da Lasso Security também conseguiram obter o acesso necessário para roubar mais de 10.000 modelos privados, uma ameaça que também faz parte dos 10 principais riscos de segurança de IA do OWASP.

“As ramificações desta violação são de longo alcance, pois obtivemos com sucesso acesso total, permissões de leitura e gravação para Meta Llama 2, BigScience Workshop e EleutherAI, todas essas organizações possuem modelos com milhões de downloads – um resultado que deixa o organização suscetível à exploração potencial por atores mal-intencionados”, diz Bar Lanyado, pesquisador de segurança da Lasso Security.

‍”A gravidade da situação não pode ser exagerada. Com o controle sobre uma organização que ostenta milhões de downloads, agora possuímos a capacidade de manipular modelos existentes, potencialmente transformando-os em entidades maliciosas. Isto implica uma ameaça terrível, como a injeção de modelos corrompidos poderia afetar milhões de usuários que dependem desses modelos fundamentais para suas aplicações.”

Planilha parcialmente editada mostrando o número de organizações de alto valor impactadas pelas APIs expostas no Hugging Face – imagem cortesia da Lasso Security

Planilha parcialmente editada mostrando o número de organizações de alto valor impactadas pelas APIs expostas no Hugging Face – imagem cortesia da Lasso Security – Clique para ampliar

Os tokens de API expostos foram descobertos por pesquisadores conduzindo uma série de pesquisas de substrings na plataforma e coletando-os manualmente. Eles então usaram a API whoami Hugging Face para determinar se o token era válido, quem o possuía, o e-mail do proprietário, a quais organizações o proprietário pertence e as permissões do token.

A exposição de tokens de API geralmente é feita quando os desenvolvedores armazenam o token em uma variável para uso em determinadas funções, mas esquecem de ocultá-lo ao enviar o código para um repositório público.

O GitHub tem seu recurso Secret Scanning para evitar vazamentos como esse e está disponível para todos os usuários gratuitamente, e o Hugging Face executa uma ferramenta semelhante que alerta os usuários sobre tokens de API expostos que são codificados em projetos.

Ao investigar os segredos expostos no Hugging Face, os pesquisadores também encontraram uma fraqueza nos tokens de API de sua organização (org_api), que já haviam sido anunciados como obsoletos, que poderiam ser usados ​​para acesso de leitura a repositórios e cobrança de acesso a um recurso. Também foi bloqueado na biblioteca Python do Hugging Face adicionando uma verificação ao tipo de token na função de login.

“Portanto decidimos investigar, e de fato a funcionalidade de gravação não funcionou, mas aparentemente, mesmo com pequenas alterações feitas na função de login na biblioteca, a funcionalidade de leitura ainda funcionou, e poderíamos usar tokens que encontramos para baixar modelos privados com token org_api exposto, por exemplo, Microsoft”, diz Lanyado em seu blog.

A Lasso Security afirma que todas as organizações afetadas foram contatadas e grandes empresas como Meta, Google, Microsoft e VMware responderam no mesmo dia, revogando os tokens e removendo o código de seus respectivos repositórios.

Stella Biderman, diretora executiva da EleutherAI, nos disse: “Somos sempre gratos aos hackers éticos por seu importante trabalho na identificação de vulnerabilidades no ecossistema e estamos comprometidos em construir normas comunitárias e melhores práticas que promovam a segurança na pesquisa de aprendizado de máquina”.

Biderman apontou para uma colaboração recente entre EleutherAI, Hugging Face e Stability AI para desenvolver um novo formato de checkpoint para mitigar as modificações do invasor, dizendo que “o dano que pode ser causado por tais ataques foi enormemente reduzido”.

“Ajudamos a desenvolver um formato alternativo de checkpoint (agora a norma no Hub) onde tal comportamento não é possível agora, limitando o dano que alguém poderia causar com uma exploração como o vazamento de chave”, acrescentou ela. “É claro que ainda existem danos muito reais para usuários e organizações devido a vazamentos importantes e estamos sempre atentos a essas coisas e a como podemos mitigar ainda mais os danos”. ®

Atualizado às 12h49 UTC de 5 de dezembro de 2023, para adicionar:

Após a publicação deste artigo, Hugging Face enviou uma declaração de Clement Delangue, cofundador e CEO da empresa:

“Os tokens foram expostos porque os usuários postaram seus tokens em plataformas como Hugging Face Hub, GitHub e outras. Em geral, recomendamos que os usuários não publiquem nenhum token em nenhuma plataforma de hospedagem de código.

“Todos os tokens Hugging Face detectados pelo pesquisador de segurança foram invalidados e a equipe tomou e continua tomando medidas para evitar que esse problema aconteça mais no futuro, por exemplo, dando às empresas mais granularidade em termos de permissões para seus tokens com hub corporativo e detecção de comportamentos maliciosos. Também estamos trabalhando com plataformas externas como o Github para evitar que tokens válidos sejam publicados em repositórios públicos.”

Fo

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo