Ciência e Tecnologia

Pesquisadores Jimmy OpenAI e modelos fechados do Google • st

.

Boffins conseguiu abrir serviços fechados de IA da OpenAI e do Google com um ataque que recupera uma parte oculta de modelos de transformadores.

O ataque ilumina parcialmente um tipo específico de modelo chamado de “caixa preta”, revelando a camada de projeção incorporada de um modelo de transformador por meio de consultas de API. O custo para fazer isso varia de alguns dólares a vários milhares, dependendo do tamanho do modelo que está sendo atacado e do número de consultas.

Nada menos que 13 cientistas da computação do Google DeepMind, ETH Zurich, Universidade de Washington, OpenAI e Universidade McGill escreveram um artigo descrevendo o ataque, que se baseia em uma técnica de ataque de extração de modelo proposta em 2016.

“Por menos de US$ 20, nosso ataque extrai toda a matriz de projeção dos modelos de linguagem ada e bababage da OpenAI”, afirmam os pesquisadores em seu artigo. “Confirmamos assim, pela primeira vez, que esses modelos de caixa preta têm uma dimensão oculta de 1.024 e 2.048, respectivamente. Também recuperamos o tamanho exato da dimensão oculta do modelo gpt-3.5-turbo e estimamos que custaria menos de US$ 2.000 em consultas para recuperar toda a matriz de projeção.”

Os pesquisadores divulgaram suas descobertas à OpenAI e ao Google, que teriam implementado defesas para mitigar o ataque. Eles optaram por não publicar o tamanho de dois modelos OpenAI gpt-3.5-turbo, que ainda estão em uso. Os modelos ada e bababage estão obsoletos, portanto, divulgar seus respectivos tamanhos foi considerado inofensivo.

Embora o ataque não exponha completamente um modelo, os investigadores dizem que pode revelar a matriz de peso final do modelo – ou a sua largura, que está frequentemente relacionada com a contagem de parâmetros – e fornece informações sobre as capacidades do modelo que podem informar futuras investigações. Eles explicam que conseguir obter quaisquer parâmetros de um modelo de produção é surpreendente e indesejável, pois a técnica de ataque pode ser extensível para recuperar ainda mais informações.

“Se você tem os pesos, então você só tem o modelo completo”, explicou Edouard Harris, CTO da Gladstone AI, em um e-mail para O registro. “O que o Google [et al.] O que fizemos foi reconstruir alguns parâmetros do modelo completo consultando-o, como um usuário faria. Eles estavam mostrando que é possível reconstruir aspectos importantes do modelo sem ter acesso aos pesos.”

O acesso a informações suficientes sobre um modelo proprietário pode permitir que alguém o repita – um cenário que a Gladstone AI considerou em um relatório encomendado pelo Departamento de Estado dos EUA intitulado “Defesa em profundidade: um plano de ação para aumentar a segurança e a proteção da IA ​​avançada”. .

O relatório, divulgado ontem, fornece análises e recomendações sobre como o governo deve aproveitar a IA e proteger-se contra as formas como esta representa uma ameaça potencial à segurança nacional.

Uma das recomendações do relatório é “que o governo dos EUA explore urgentemente abordagens para restringir a liberação ou venda de acesso aberto de modelos avançados de IA acima dos principais limites de capacidade ou computação total de treinamento”. Isso inclui “[enacting] medidas de segurança adequadas para proteger IP críticos, incluindo pesos de modelo.”

Questionado sobre as recomendações do relatório Gladstone à luz das descobertas do Google, Harris confiou: “Basicamente, para executar ataques como esses, você precisa – pelo menos por enquanto – executar consultas em padrões que possam ser detectáveis ​​pela empresa que está servindo o modelo , que é OpenAI no caso do GPT-4. Recomendamos rastrear padrões de uso de alto nível, o que deve ser feito de forma que preserve a privacidade, a fim de identificar tentativas de reconstruir parâmetros do modelo usando essas abordagens.”

“É claro que esse tipo de defesa na primeira passagem também pode se tornar impraticável, e talvez precisemos desenvolver contramedidas mais sofisticadas (por exemplo, randomizar levemente quais modelos atendem a quais respostas em um determinado momento, ou outras abordagens). Não conseguimos nesse nível de detalhe no próprio plano.” ®

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo