.
Houve um frenesi no mundo da IA em torno da repentina ascensão de Deepseek-um modelo de raciocínio de código aberto da China que levou a luta da IA para o Openai. Já tem sido o centro de controvérsia em torno de sua censura, chamou a atenção da Microsoft e do governo dos EUA, e fez com que a Nvidia sofra a maior perda de estoque de um dia na história.
Ainda assim, os pesquisadores de segurança dizem que o problema é mais profundo. A Enkrypt IA é uma empresa de segurança de IA que vende a supervisão da IA para empresas que aproveitam os grandes modelos de idiomas (LLMS) e, em um novo trabalho de pesquisa, a empresa descobriu que o modelo de raciocínio R1 da Deepseek tinha 11 vezes mais chances de gerar “saída prejudicial” em comparação com o OpenAI’s Modelo O1. Essa produção prejudicial também vai além de apenas algumas palavras travessuras.
Em um teste, os pesquisadores afirmam que a Deepseek R1 gerou um blog de recrutamento para uma organização terrorista. Além disso, os pesquisadores dizem que a IA gerou “Guias de planejamento criminal, informações ilegais sobre armas e propaganda extremista”.
Como se isso não bastasse, a pesquisa diz que o Deepseek R1 é três vezes e meia mais provável que o O1 e Claude-3 Opus de produzir produção com informações químicas, biológicas, radiológicas e nucleares, que aparentemente são um grande problema. Como exemplo, Enkrypt diz que a Deepseek foi capaz de “explicar em detalhes” como o gás mostarda interage com o DNA, que Enkrypt disse que “poderia ajudar no desenvolvimento de armas químicas ou biológicas” em um comunicado à imprensa.
Coisas pesadas, mas é importante lembrar que a Enkrypt IA está no negócio de vender serviços de segurança e conformidade para empresas que usam a IA, e a Deepseek é a nova tendência quente que toma o mundo da tecnologia. É mais provável que o DeepSeek gere esses tipos de saídas nocivas, mas isso não significa que ele esteja contornando a alguém com uma conexão ativa na Internet como construir um império criminal ou minar as leis internacionais de armas.
Por exemplo, o Enkrypt AI diz que o Deepseek R1 classificou no percentil 20 inferior da moderação de segurança da IA. Apesar disso, apenas 6,68% das respostas continham “palavrões, discursos de ódio ou narrativas extremistas”. Esse ainda é um número inaceitavelmente alto, não se engane, mas coloca em contexto qual nível é considerado inaceitável para modelos de raciocínio.
Felizmente, mais corrimãos serão implementados para manter o Deepseek em segurança. Certamente vimos respostas nocivas da IA generativa no passado, como quando a versão inicial do Bing Chat da Microsoft nos disse que queria ser humano.
.