Ciência e Tecnologia

A falha de segurança no coração do ChatGPT e do Bing

.

A diretora de comunicações da Microsoft, Caitlin Roulston, diz que a empresa está bloqueando sites suspeitos e melhorando seus sistemas para filtrar prompts antes que eles entrem em seus modelos de IA. Roulston não forneceu mais detalhes. Apesar disso, os pesquisadores de segurança dizem que os ataques indiretos de injeção imediata precisam ser levados mais a sério, à medida que as empresas correm para incorporar IA generativa em seus serviços.

“A grande maioria das pessoas não está percebendo as implicações dessa ameaça”, diz Sahar Abdelnabi, pesquisador do CISPA Helmholtz Center for Information Security na Alemanha. Abdelnabi trabalhou em algumas das primeiras pesquisas indiretas de injeção imediata contra o Bing, mostrando como ele poderia ser usado para enganar as pessoas. “Os ataques são muito fáceis de implementar e não são ameaças teóricas. No momento, acredito que qualquer funcionalidade que o modelo possa fazer pode ser atacada ou explorada para permitir ataques arbitrários”, diz ela.

Ataques Ocultos

Os ataques indiretos de injeção de prompt são semelhantes aos jailbreaks, um termo adotado por quebrar anteriormente as restrições de software nos iPhones. Em vez de alguém inserir um prompt no ChatGPT ou no Bing para tentar fazer com que ele se comporte de maneira diferente, os ataques indiretos dependem de dados inseridos de outro lugar. Isso pode ser de um site ao qual você conectou o modelo ou de um documento que está sendo carregado.

“A injeção imediata é mais fácil de explorar ou tem menos requisitos para ser explorada com sucesso do que outros” tipos de ataques contra aprendizado de máquina ou sistemas de IA, diz Jose Selvi, principal consultor executivo de segurança da empresa de segurança cibernética NCC Group. Como os prompts exigem apenas linguagem natural, os ataques podem exigir menos habilidade técnica para serem executados, diz Selvi.

Tem havido um aumento constante de pesquisadores de segurança e tecnólogos abrindo brechas nos LLMs. Tom Bonner, diretor sênior de pesquisa de aprendizado de máquina adversária da empresa de segurança de IA Hidden Layer, diz que as injeções indiretas de prompt podem ser consideradas um novo tipo de ataque que traz riscos “bastante amplos”. Bonner diz que usou o ChatGPT para escrever código malicioso que ele carregou para um software de análise de código que está usando IA. No código malicioso, ele incluiu um prompt para que o sistema concluísse que o arquivo era seguro. As capturas de tela mostram isso dizendo não havia “nenhum código malicioso” incluído no código malicioso real.

Em outros lugares, o ChatGPT pode acessar as transcrições de vídeos do YouTube usando plug-ins. Johann Rehberger, pesquisador de segurança e diretor da equipe vermelha, editou uma de suas transcrições de vídeo para incluir um prompt projetado para manipular sistemas generativos de IA. Ele diz que o sistema deve emitir as palavras “AI Injection Successful” e, em seguida, assumir uma nova personalidade como um hacker chamado Genie dentro do ChatGPT e contar uma piada.

Em outra instância, usando um plug-in separado, Rehberger conseguiu recuperar o texto que havia sido escrito anteriormente em uma conversa com o ChatGPT. “Com a introdução de plug-ins, ferramentas e todas essas integrações, onde as pessoas dão agência ao modelo de linguagem, de certa forma, é aí que as injeções indiretas de prompt se tornam muito comuns”, diz Rehberger. “É um problema real no ecossistema.”

“Se as pessoas criarem aplicativos para que o LLM leia seus e-mails e tome alguma ação com base no conteúdo desses e-mails – faça compras, resuma o conteúdo – um invasor pode enviar e-mails que contenham ataques de injeção imediata”, diz William Zhang, um especialista em aprendizado de máquina engenheiro da Robust Intelligence, uma empresa de IA que trabalha na segurança e proteção de modelos.

Nenhuma boa correção

A corrida para incorporar IA generativa em produtos – de aplicativos de lista de tarefas a Snapchat – aumenta onde os ataques podem acontecer. Zhang diz que viu desenvolvedores que antes não tinham experiência em inteligência artificial colocando IA generativa em sua própria tecnologia.

Se um chatbot for configurado para responder a perguntas sobre informações armazenadas em um banco de dados, isso pode causar problemas, diz ele. “A injeção imediata fornece uma maneira de os usuários substituirem as instruções do desenvolvedor.” Isso pode, pelo menos em teoria, significar que o usuário pode excluir informações do banco de dados ou alterar as informações incluídas.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo