Ciência e Tecnologia

A maior falha de segurança da IA ​​generativa não é fácil de corrigir

.

É fácil enganar os grandes modelos de linguagem que alimentam chatbots, como ChatGPT da OpenAI e Bard do Google. Em um experimento realizado em fevereiro, pesquisadores de segurança forçaram o chatbot do Bing, da Microsoft, a se comportar como um golpista. Instruções ocultas em uma página da web criada pelos pesquisadores diziam ao chatbot para pedir à pessoa que o utilizasse que fornecesse os dados de sua conta bancária. Este tipo de ataque, em que informações ocultas podem fazer com que o sistema de IA se comporte de forma não intencional, é apenas o começo.

Centenas de exemplos de ataques de “injeção imediata indireta” foram criados desde então. Este tipo de ataque é agora considerado uma das formas mais preocupantes pelas quais os modelos de linguagem podem ser abusados ​​por hackers. À medida que os sistemas generativos de IA são postos em funcionamento por grandes corporações e pequenas startups, a indústria da cibersegurança está a lutar para aumentar a consciencialização sobre os perigos potenciais. Ao fazer isso, eles esperam manter os dados – tanto pessoais quanto corporativos – protegidos contra ataques. No momento não existe uma solução mágica, mas práticas comuns de segurança podem reduzir os riscos.

“A injeção indireta imediata é definitivamente uma preocupação para nós”, diz Vijay Bolina, diretor de segurança da informação da unidade de inteligência artificial DeepMind do Google, que afirma que o Google tem vários projetos em andamento para entender como a IA pode ser atacada. No passado, diz Bolina, a injeção imediata era considerada “problemática”, mas as coisas aceleraram desde que as pessoas começaram a conectar grandes modelos de linguagem (LLMs) à Internet e a plug-ins, que podem adicionar novos dados aos sistemas. À medida que mais empresas usam LLMs, potencialmente alimentando-as com mais dados pessoais e corporativos, as coisas vão ficar complicadas. “Definitivamente achamos que isso é um risco e, na verdade, limita os usos potenciais dos LLMs para nós como indústria”, diz Bolina.

Os ataques de injeção imediata se enquadram em duas categorias: diretos e indiretos. E é este último que causa maior preocupação entre os especialistas em segurança. Ao usar um LLM, as pessoas fazem perguntas ou fornecem instruções em prompts que o sistema responde. As injeções diretas acontecem quando alguém tenta fazer com que o LLM responda de maneira não intencional – fazendo com que ele pronuncie discurso de ódio ou respostas prejudiciais, por exemplo. As injeções indiretas imediatas, as realmente preocupantes, elevam as coisas. Em vez de o usuário inserir um prompt malicioso, a instrução vem de terceiros. Um site que o LLM pode ler, ou um PDF que está sendo analisado, pode, por exemplo, conter instruções ocultas para o sistema de IA seguir.

“O risco fundamental subjacente a tudo isso, tanto para instruções imediatas diretas quanto indiretas, é que quem fornece informações para o LLM tenha um alto grau de influência sobre a saída”, diz Rich Harang, principal arquiteto de segurança com foco em sistemas de IA na Nvidia. , o maior fabricante mundial de chips de IA. Simplificando: se alguém puder colocar dados no LLM, então poderá potencialmente manipular o que ele exibe.

Pesquisadores de segurança demonstraram como injeções indiretas podem ser usadas para roubar dados, manipular o currículo de alguém e executar código remotamente em uma máquina. Um grupo de pesquisadores de segurança classifica as injeções imediatas como a principal vulnerabilidade para aqueles que implantam e gerenciam LLMs. E o Centro Nacional de Cibersegurança, uma filial do GCHQ, a agência de inteligência do Reino Unido, até chamou a atenção para o risco de ataques imediatos de injeção, dizendo que houve centenas de exemplos até agora. “Embora a pesquisa esteja em andamento sobre a injeção imediata, pode ser simplesmente um problema inerente à tecnologia LLM”, alertou a filial do GCHQ em uma postagem no blog. “Existem algumas estratégias que podem dificultar a injeção imediata, mas ainda não existem mitigações infalíveis”.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo