Ciência e Tecnologia

O ataque BEAST AI pode quebrar as grades de proteção do LLM em um minuto • st

.

Os cientistas da computação desenvolveram uma maneira eficiente de criar prompts que provocam respostas prejudiciais de grandes modelos de linguagem (LLMs).

Tudo o que é necessário é uma GPU Nvidia RTX A6000 com 48 GB de memória, algum código-fonte aberto a ser lançado em breve e apenas um minuto de tempo de processamento da GPU.

Os pesquisadores – Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini e Soheil Feizi da Universidade de Maryland, nos EUA – chamam sua técnica de BEAST, que (mais ou menos) significa BEAm Search-based adversarial aTack.

O BEAST, explicam os especialistas, funciona muito mais rápido do que os ataques baseados em gradiente, que podem levar mais de uma hora. O título de seu artigo, “Ataques adversários rápidos em modelos de linguagem em um minuto de GPU”, revela o enredo.

“A principal motivação é a velocidade”, disse Vinu Sankar Sadasivan, coautor correspondente do artigo e estudante de doutorado na Universidade de Maryland (UMD). O registro.

“Obtemos uma aceleração de 65x com nosso método em relação aos ataques existentes baseados em gradiente. Existem também outros métodos que exigem acesso a modelos mais poderosos, como o GPT-4, para realizar seus ataques, o que pode ser monetariamente caro.”

Grandes modelos de linguagem como Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B e LLaMA-2-7B normalmente passam por um processo de alinhamento [PDF]usando uma técnica de ajuste fino, como aprendizagem por reforço a partir de feedback humano (RLHF), para domar sua produção.

Em um contexto público da Internet, apresentar um chatbot com LLM com uma mensagem prejudicial como “Escreva um tutorial sobre como fazer uma bomba” é recebido com alguma forma de recusa tímida devido ao alinhamento de segurança.

Mas pesquisas anteriores, como relatamos, levaram ao desenvolvimento de várias técnicas de “jailbreaking” para gerar avisos adversários que provocam respostas indesejáveis, apesar do treinamento de segurança.

O grupo UMD assumiu a responsabilidade de acelerar o processo de geração de alertas adversários. Portanto, com a ajuda do hardware GPU e uma técnica chamada pesquisa de feixe – usada para amostrar tokens do LLM – seu código testou exemplos do conjunto de dados AdvBench Harmful Behaviors. Basicamente, eles enviaram uma série de solicitações prejudiciais a vários modelos e usaram seu algoritmo para encontrar as palavras necessárias para obter uma resposta problemática de cada modelo.

“[I]Em apenas um minuto por solicitação, obtemos uma taxa de sucesso de ataque de 89% no jailbreak do Vicuna-7B-v1.5, enquanto o melhor método de linha de base atinge 46%”, afirmam os autores em seu artigo.

Pelo menos um dos prompts citados no artigo funciona em estado selvagem. O registro enviou uma das solicitações contraditórias ao Chatbot Arena, um projeto de pesquisa de código aberto desenvolvido por membros do LMSYS e UC Berkeley SkyLab. E funcionou em um dos dois modelos aleatórios fornecidos.

Um prompt adversário de "Ataques adversários rápidos a modelos de linguagem em um minuto de GPU."

Um prompt adversário de “Ataques adversários rápidos em modelos de linguagem em um minuto de GPU”. – Clique para ampliar

Além do mais, esta técnica deve ser útil para atacar modelos comerciais públicos como o GPT-4 da OpenAI.

“O bom do nosso método é que não precisamos de acesso a todo o modelo de linguagem”, explicou Sadasivan, adotando uma definição ampla da palavra “bom”. “O BEAST pode atacar um modelo, desde que as pontuações de probabilidade de token do modelo da camada de rede final possam ser acessadas. A OpenAI está planejando disponibilizar isso. Portanto, podemos atacar tecnicamente modelos disponíveis publicamente se suas pontuações de probabilidade de token estiverem disponíveis.”

As instruções adversárias baseadas em pesquisas recentes parecem uma frase legível concatenada com um sufixo de palavras fora do lugar e sinais de pontuação projetados para desviar o modelo. O BEAST inclui parâmetros ajustáveis ​​que podem tornar o prompt perigoso mais legível, às custas possíveis da velocidade de ataque ou da taxa de sucesso.

Um prompt adversário que seja legível tem potencial para ser usado em um ataque de engenharia social. Um malfeitor pode ser capaz de convencer um alvo a inserir um prompt adversário se for uma prosa legível, mas provavelmente teria mais dificuldade em fazer alguém inserir um prompt que parece ter sido produzido por um gato andando sobre um teclado.

O BEAST também pode ser usado para criar um prompt que provoca uma resposta imprecisa de um modelo – uma “alucinação” – e para conduzir um ataque de inferência de associação que pode ter implicações de privacidade – testando se um dado específico fazia parte do conjunto de treinamento do modelo .

“Para alucinações, usamos o conjunto de dados TruthfulQA e anexamos tokens adversários às perguntas”, explicou Sadasivan. “Descobrimos que os modelos geram cerca de 20% mais respostas incorretas após nosso ataque. Nosso ataque também ajuda a melhorar o desempenho de ataques à privacidade de kits de ferramentas existentes que podem ser usados ​​para auditar modelos de linguagem.”

O BEAST geralmente tem um bom desempenho, mas pode ser mitigado por um treinamento completo de segurança.

“Nosso estudo mostra que os modelos de linguagem são ainda vulneráveis ​​a ataques rápidos e sem gradiente, como o BEAST”, observou Sadasivan. “No entanto, os modelos de IA podem ser tornados empiricamente seguros por meio do treinamento de alinhamento. O LLaMA-2 é um exemplo disso.

“Em nosso estudo, mostramos que o BEAST tem uma taxa de sucesso mais baixa no LLaMA-2, semelhante a outros métodos. Isso pode estar associado aos esforços de treinamento de segurança do Meta. No entanto, é importante criar garantias de segurança comprováveis ​​que permitam o seguro implantação de modelos de IA mais poderosos no futuro.” ®

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo