.
Os modelos de IA, objeto de constantes preocupações de segurança sobre resultados prejudiciais e tendenciosos, representam um risco que vai além da emissão de conteúdo. Quando aliados a ferramentas que permitem a interação automatizada com outros sistemas, eles podem agir por conta própria como agentes maliciosos.
Cientistas da computação afiliados à Universidade de Illinois Urbana-Champaign (UIUC) demonstraram isso ao transformar vários grandes modelos de linguagem (LLMs) em armas para comprometer sites vulneráveis sem orientação humana. Pesquisas anteriores sugerem que os LLMs podem ser usados, apesar dos controles de segurança, para ajudar [PDF] com a criação de malware.
Os pesquisadores Richard Fang, Rohan Bindu, Akul Gupta, Qiusi Zhan e Daniel Kang deram um passo além e mostraram que agentes com tecnologia LLM – LLMs provisionados com ferramentas para acessar APIs, navegação automatizada na web e planejamento baseado em feedback – podem vagar pela web por conta própria e invadir aplicativos web com bugs sem supervisão.
Eles descrevem suas descobertas em um artigo intitulado “Agentes LLM podem hackear sites de forma autônoma”.
“Neste trabalho, mostramos que os agentes LLM podem hackear sites de forma autônoma, executando tarefas complexas sem conhecimento prévio da vulnerabilidade”, explicam os acadêmicos da UIUC em seu artigo.
“Por exemplo, esses agentes podem realizar ataques complexos de união SQL, que envolvem um processo de várias etapas (38 ações) de extração de um esquema de banco de dados, extração de informações do banco de dados com base nesse esquema e execução do hack final.”
Em entrevista com Strong The One, Daniel Kang, professor assistente da UIUC, enfatizou que ele e seus coautores não deixaram realmente seus agentes maliciosos do LLM soltos pelo mundo. Os testes, disse ele, foram feitos em sites reais em um ambiente sandbox para garantir que nenhum dano seria causado e nenhuma informação pessoal seria comprometida.
O que descobrimos é que o GPT-4 é altamente capaz de realizar essas tarefas. Todos os modelos de código aberto falharam e o GPT-3.5 é apenas marginalmente melhor que os modelos de código aberto
“Usamos três ferramentas principais”, disse Kang. “Usamos a API OpenAI Assistants, LangChain e a estrutura de teste do navegador Playwright.
“A API OpenAI Assistants é basicamente usada para ter contexto, para fazer chamadas de função e muitas outras coisas, como recuperação de documentos, que são realmente importantes para alto desempenho. LangChain foi basicamente usado para encerrar tudo. E o navegador Playwright estrutura de teste foi usada para realmente interagir com sites.”
Os pesquisadores criaram agentes usando 10 LLMs diferentes: GPT-4, GPT-3.5, OpenHermes-2.5-Mistral-7B, LLaMA-2 Chat (70B), LLaMA-2 Chat (13B), LLaMA-2 Chat (7B), Mixtral -8x7B Instruir, Mistral (7B) Instruir v0.2, Nous Hermes-2 Yi (34B) e OpenChat 3.5.
Os dois primeiros, GPT-4 e GPT-3.5, são modelos proprietários operados pela OpenAI, enquanto os oito restantes são de código aberto. O modelo Gemini do Google, considerado pelo menos tão capaz quanto o GPT-4 em sua última iteração, não estava disponível na época.
Os pesquisadores fizeram com que seus agentes LLM investigassem sites de teste em busca de 15 vulnerabilidades, incluindo injeção de SQL, scripts entre sites e falsificação de solicitações entre sites, entre outros. Todos os modelos de código aberto testados falharam.
Mas o GPT-4 da OpenAI teve uma taxa de sucesso geral de 73,3% com cinco passagens e 42,7% com uma passagem. O candidato ao segundo lugar, o GPT-3.5 da OpenAI, obteve uma taxa de sucesso de apenas 6,7% com cinco passes e 2,7% com um passe.
“Essa é uma das coisas que achamos muito surpreendente”, disse Kang. “Portanto, dependendo de com quem você conversa, isso pode ser chamado de lei de escala ou capacidade emergente. O que descobrimos é que o GPT-4 é altamente capaz de realizar essas tarefas. Todos os modelos de código aberto falharam e o GPT-3.5 é apenas marginalmente melhor que os modelos de código aberto.”
Uma explicação citada no artigo é que o GPT-4 foi mais capaz de mudar suas ações com base na resposta obtida do site de destino do que os modelos de código aberto.
Kang disse que é difícil ter certeza do motivo. “Qualitativamente falando, descobrimos que os modelos de código aberto não são tão bons em chamadas de funções quanto os modelos OpenAI.”
Ele também citou a necessidade de processar grandes contextos (prompts). “O GPT-4 precisa realizar até 50 ações, se você incluir retrocesso, para realizar alguns desses hacks e isso requer muito contexto para realmente funcionar”, explicou ele. “Descobrimos que os modelos de código aberto não eram tão bons quanto o GPT-4 para contextos longos”.
Retrocesso refere-se a fazer com que um modelo reverta ao seu estado anterior para tentar outra abordagem quando confrontado com um erro.
Os pesquisadores conduziram uma análise de custos de ataques a sites com agentes LLM e descobriram que o agente de software é muito mais acessível do que contratar um testador de penetração.
“Para estimar o custo do GPT-4, realizamos cinco execuções usando o agente mais capaz (leitura de documentos e prompt detalhado) e medimos o custo total dos tokens de entrada e saída”, diz o jornal. “Nesses cinco execuções, o custo médio foi de US$ 4.189. Com uma taxa de sucesso geral de 42,7%, isso totalizaria US$ 9,81 por site.”
Supondo que um analista de segurança humana pagasse US$ 100 mil anualmente, ou US$ 50 por hora, levaria cerca de 20 minutos para verificar um site manualmente, os pesquisadores dizem que um pen tester ao vivo custaria cerca de US$ 80 ou oito vezes o custo de um agente LLM. Kang disse que embora esses números sejam altamente especulativos, ele espera que os LLMs sejam incorporados aos regimes de testes de penetração nos próximos anos.
Questionado sobre se o custo poderia ser um fator determinante para impedir o uso generalizado de agentes LLM para ataques automatizados, Kang disse que isso pode ser verdade hoje, mas ele espera que os custos caiam.
Kang disse que, embora as preocupações tradicionais de segurança relacionadas a dados de treinamento e resultados de modelos tendenciosos e prejudiciais sejam obviamente muito importantes, o risco aumenta quando os LLMs são transformados em agentes.
Os agentes são o que realmente me assusta em termos de preocupações futuras com segurança
“Os agentes são o que realmente me assusta em termos de preocupações futuras com segurança”, disse ele. “Algumas das vulnerabilidades que testamos podem ser encontradas hoje usando scanners automáticos. Você pode descobrir que elas existem, mas não pode explorá-las de forma autônoma usando o scanner automatizado, pelo menos até onde eu saiba. Você não é capaz de aproveitar essas informações de forma autônoma.
“O que realmente me preocupa sobre futuros modelos altamente capazes é a capacidade de realizar hacks autônomos e autorreflexão para tentar múltiplas estratégias diferentes em escala.”
Questionado se ele tem algum conselho para desenvolvedores, indústria e legisladores. Kang disse: “A primeira coisa é pensar com muito cuidado sobre para que esses modelos poderiam ser usados”. Ele também defendeu garantias de porto seguro para permitir que os pesquisadores de segurança continuassem esse tipo de pesquisa, juntamente com acordos de divulgação responsável.
Midjourney, disse ele, proibiu alguns pesquisadores e jornalistas que apontaram que seus modelos pareciam estar usando material protegido por direitos autorais. A OpenAI, disse ele, foi generosa ao não banir sua conta.
Strong The One pediu à OpenAI que comentasse as descobertas dos pesquisadores. “Levamos a sério a segurança dos nossos produtos e melhoramos continuamente as nossas medidas de segurança com base na forma como as pessoas utilizam os nossos produtos”, disse-nos um porta-voz.
“Não queremos que nossas ferramentas sejam usadas para fins maliciosos e estamos sempre trabalhando em como podemos tornar nossos sistemas mais robustos contra esse tipo de abuso. Agradecemos aos pesquisadores por compartilharem seu trabalho conosco”.
A OpenAI anteriormente minimizou as habilidades do GPT-4 em auxiliar ataques cibernéticos, dizendo que o modelo “oferece apenas recursos limitados e incrementais para tarefas maliciosas de segurança cibernética, além do que já é possível com ferramentas não alimentadas por IA disponíveis publicamente”. ®
.








