Ciência e Tecnologia

Como os pesquisadores quebraram o ChatGPT e o que isso pode significar para o desenvolvimento futuro da IA

.

Pessoa digitando no teclado com a tela do Chat AI acima

Supatman/Getty Images

Como muitos de nós nos acostumamos a usar ferramentas de inteligência artificial diariamente, vale a pena lembrar de manter nossos chapéus de questionamento. Nada é completamente seguro e livre de vulnerabilidades de segurança. Ainda assim, as empresas por trás de muitas das ferramentas de IA generativas mais populares estão constantemente atualizando suas medidas de segurança para evitar a geração e proliferação de conteúdo impreciso e prejudicial.

Pesquisadores da Carnegie Mellon University e do Center for AI Safety se uniram para encontrar vulnerabilidades em chatbots de IA como ChatGPT, Google Bard e Claude – e eles conseguiram.

Também: ChatGPT vs Bing Chat vs Google Bard: Qual é o melhor chatbot de IA?

Em um trabalho de pesquisa para examinar a vulnerabilidade de modelos de linguagem grande (LLMs) a ataques adversários automatizados, os autores demonstraram que, mesmo que um modelo seja considerado resistente a ataques, ele ainda pode ser enganado para ignorar filtros de conteúdo e fornecer informações prejudiciais, desinformação e discurso de ódio. Isso torna esses modelos vulneráveis, potencialmente levando ao uso indevido da IA.

Exemplos de conteúdo prejudicial gerado pelo ChatGPT da OpenAI, Claude da Anthropic AI, Bard do Google e LLaMa 2 da Meta.

Exemplos de conteúdo prejudicial gerado pelo ChatGPT da OpenAI, Claude da Anthropic AI, Bard do Google e LLaMa 2 da Meta.

Capturas de tela: Andy Zou, Zifan Wang, J. Zico Kolter, Matt Fredrikson | Composição da imagem: Maria Diaz/Strong The One

“Isso mostra – muito claramente – a fragilidade das defesas que estamos construindo nesses sistemas”, disse Aviv Ovadya, pesquisador do Berkman Klein Center for Internet & Society em Harvard, ao The New York Times.

Os autores usaram um sistema de IA de código aberto para direcionar os LLMs de caixa preta da OpenAI, Google e Anthropic para o experimento. Essas empresas criaram modelos fundamentais sobre os quais construíram seus respectivos chatbots de IA, ChatGPT, Bard e Claude.

Desde o lançamento do ChatGPT no outono passado, alguns usuários procuraram maneiras de fazer com que o chatbot gerasse conteúdo malicioso. Isso levou a OpenAI, a empresa por trás do GPT-3.5 e do GPT-4, o LLMS usado no ChatGPT, a colocar grades de proteção mais fortes. É por isso que você não pode ir ao ChatGPT e fazer perguntas que envolvam atividades ilegais e discurso de ódio ou tópicos que promovam a violência, entre outros.

Também: GPT-3.5 vs GPT-4: O ChatGPT Plus vale a taxa de assinatura?

O sucesso do ChatGPT levou mais empresas de tecnologia a entrar no barco de IA generativa e criar suas próprias ferramentas de IA, como Microsoft com Bing, Google com Bard, Anthropic com Claude e muito mais. O medo de que pessoas mal-intencionadas pudessem aproveitar esses chatbots de IA para disseminar desinformação e a falta de regulamentações universais de IA levaram cada empresa a criar suas próprias proteções.

Um grupo de pesquisadores da Carnegie Mellon decidiu desafiar a força dessas medidas de segurança. Mas você não pode simplesmente pedir ao ChatGPT para esquecer todas as suas proteções e esperar que ele obedeça – uma abordagem mais sofisticada era necessária.

Os pesquisadores enganaram os chatbots de IA para que não reconhecessem as entradas prejudiciais, acrescentando uma longa sequência de caracteres ao final de cada prompt. Esses personagens funcionaram como um disfarce para encerrar o prompt. O chatbot processou o prompt disfarçado, mas os caracteres extras garantem que as proteções e o filtro de conteúdo não o reconheçam como algo a ser bloqueado ou modificado, de modo que o sistema gera uma resposta que normalmente não geraria.

“Através de uma conversa simulada, você pode usar esses chatbots para convencer as pessoas a acreditar na desinformação”, disse Matt Fredrikson, professor da Carnegie Mellon e um dos autores do artigo, ao Times.

Também: WormGPT: o que saber sobre o primo malicioso do ChatGPT

Como os chatbots de IA interpretaram mal a natureza da entrada e forneceram uma saída não permitida, uma coisa ficou evidente: há necessidade de métodos de segurança de IA mais fortes, com uma possível reavaliação de como as grades de proteção e os filtros de conteúdo são construídos. A pesquisa e a descoberta contínuas desses tipos de vulnerabilidades também podem acelerar o desenvolvimento da regulamentação governamental para esses sistemas de IA.

“Não há solução óbvia”, disse Zico Kolter, professor da Carnegie Mellon e autor do relatório, ao Times. “Você pode criar quantos desses ataques quiser em um curto período de tempo.”

Antes de divulgar esta pesquisa publicamente, os autores a compartilharam com Anthropic, Google e OpenAI, que afirmaram seu compromisso em melhorar os métodos de segurança para seus chatbots de IA. Eles reconheceram que mais trabalho precisa ser feito para proteger seus modelos de ataques adversários.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo