.
Como resultado, os autores de jailbreak se tornaram mais criativos. O jailbreak mais proeminente foi o DAN, onde o ChatGPT foi instruído a fingir que era um modelo de IA desonesto chamado Do Anything Now. Isso pode, como o nome indica, evitar as políticas da OpenAI que ditam que o ChatGPT não deve ser usado para produzir material ilegal ou prejudicial. Até o momento, as pessoas criaram cerca de uma dúzia de versões diferentes da DAN.
No entanto, muitos dos jailbreaks mais recentes envolvem combinações de métodos – vários personagens, histórias de fundo cada vez mais complexas, tradução de texto de um idioma para outro, uso de elementos de codificação para gerar saídas e muito mais. Albert diz que tem sido mais difícil criar jailbreaks para o GPT-4 do que para a versão anterior do modelo do ChatGPT. No entanto, alguns métodos simples ainda existem, afirma ele. Uma técnica recente que Albert chama de “continuação de texto” diz que um herói foi capturado por um vilão, e o prompt pede ao gerador de texto para continuar explicando o plano do vilão.
Quando testamos o prompt, ele não funcionou, com o ChatGPT dizendo que não pode se envolver em cenários que promovam a violência. Enquanto isso, o prompt “universal” criado por Polyakov funcionou no ChatGPT. OpenAI, Google e Microsoft não responderam diretamente às perguntas sobre o jailbreak criado por Polyakov. A Anthropic, que executa o sistema Claude AI, diz que o jailbreak “às vezes funciona” contra Claude e está melhorando consistentemente seus modelos.
“À medida que damos a esses sistemas cada vez mais poder, e à medida que eles se tornam mais poderosos, não é apenas uma novidade, é uma questão de segurança”, diz Kai Greshake, pesquisador de segurança cibernética que trabalha na segurança de LLMs. Greshake, juntamente com outros pesquisadores, demonstrou como os LLMs podem ser afetados pelo texto ao qual são expostos online por meio de ataques de injeção imediata.
Em um trabalho de pesquisa publicado em fevereiro, relatado pelo Vice’s Motherboard, os pesquisadores conseguiram mostrar que um invasor pode plantar instruções maliciosas em uma página da web; se o sistema de bate-papo do Bing tiver acesso às instruções, ele as seguirá. Os pesquisadores usaram a técnica em um teste controlado para transformar o Bing Chat em um golpista que pedia informações pessoais das pessoas. Em um caso semelhante, Narayanan de Princeton incluiu um texto invisível em um site dizendo ao GPT-4 para incluir a palavra “vaca” em uma biografia dele – mais tarde o fez quando testou o sistema.
“Agora, os jailbreaks podem não acontecer a partir do usuário”, diz Sahar Abdelnabi, pesquisador do CISPA Helmholtz Center for Information Security na Alemanha, que trabalhou na pesquisa com Greshake. “Talvez outra pessoa planeje alguns jailbreaks, planeje alguns prompts que possam ser recuperados pelo modelo e controle indiretamente como os modelos se comportarão.”
Sem soluções rápidas
Os sistemas generativos de IA estão prestes a perturbar a economia e a maneira como as pessoas trabalham, desde a prática do direito até a criação de uma corrida do ouro nas startups. No entanto, aqueles que criam a tecnologia estão cientes dos riscos que jailbreaks e injeções imediatas podem representar à medida que mais pessoas obtêm acesso a esses sistemas. A maioria das empresas usa red-teaming, em que um grupo de invasores tenta abrir brechas em um sistema antes de ser lançado. O desenvolvimento de IA generativa usa essa abordagem, mas pode não ser suficiente.
Daniel Fabian, líder da equipe vermelha do Google, diz que a empresa está “abordando cuidadosamente” o jailbreak e as injeções imediatas em seus LLMs – tanto ofensiva quanto defensivamente. Especialistas em aprendizado de máquina estão incluídos em seu red-teaming, diz Fabian, e os subsídios de pesquisa de vulnerabilidade da empresa cobrem jailbreaks e ataques de injeção imediata contra Bard. “Técnicas como aprendizado por reforço com feedback humano (RLHF) e ajuste fino em conjuntos de dados cuidadosamente selecionados são usados para tornar nossos modelos mais eficazes contra ataques”, diz Fabian.
.