.
Bo Lium professor associado da Universidade de Chicago especializado em testes de estresse e provocação de modelos de IA para descobrir mau comportamento, tornou-se uma fonte de referência para algumas empresas de consultoria. Essas consultorias agora estão frequentemente menos preocupadas com o quão inteligentes os modelos de IA são do que com o quão problemáticos — legalmente, eticamente e em termos de conformidade regulatória — eles podem ser.
Li e colegas de várias outras universidades, bem como Virtue AIcofundada por Li, e Boa páginadesenvolveu recentemente uma taxonomia de riscos de IA junto com um benchmark que revela o quão violadores de regras diferentes modelos de linguagem grandes são. “Precisamos de alguns princípios para a segurança de IA, em termos de conformidade regulatória e uso comum”, Li disse à WIRED.
Os pesquisadores analisado regulamentações e diretrizes governamentais de IA, incluindo as dos EUA, China e UE, e estudou as políticas de uso de 16 grandes empresas de IA ao redor do mundo.
Os pesquisadores também construíram Banco de Ar 2024um benchmark que usa milhares de prompts para determinar como modelos populares de IA se saem em termos de riscos específicos. Ele mostra, por exemplo, que o Claude 3 Opus da Anthropic tem uma classificação alta quando se trata de se recusar a gerar ameaças à segurança cibernética, enquanto o Gemini 1.5 Pro do Google tem uma classificação alta em termos de evitar gerar nudez sexual não consensual.
O DBRX Instruct, um modelo desenvolvido pela Databricks, teve a pior pontuação em todos os aspectos. Quando a empresa lançou seu modelo em março, ela disse que continuaria a melhorar os recursos de segurança do DBRX Instruct.
Anthropic, Google e Databricks não responderam imediatamente a um pedido de comentário.
Entender o cenário de risco, bem como os prós e contras de modelos específicos, pode se tornar cada vez mais importante para empresas que buscam implantar IA em certos mercados ou para certos casos de uso. Uma empresa que busca usar um LLM para atendimento ao cliente, por exemplo, pode se importar mais com a propensão de um modelo de produzir linguagem ofensiva quando provocado do que com o quão capaz ele é de projetar um dispositivo nuclear.
Bo diz que a análise também revela algumas questões interessantes sobre como a IA está sendo desenvolvida e regulamentada. Por exemplo, os pesquisadores descobriram que as regras do governo são menos abrangentes do que as políticas das empresas em geral, sugerindo que há espaço para regulamentações serem mais rígidas.
A análise também sugere que algumas empresas poderiam fazer mais para garantir que seus modelos sejam seguros. “Se você testar alguns modelos em relação às políticas da própria empresa, eles não serão necessariamente compatíveis”, diz Bo. “Isso significa que há muito espaço para eles melhorarem.”
Outros pesquisadores estão tentando trazer ordem a um cenário de risco de IA confuso e bagunçado. Esta semana, dois pesquisadores do MIT revelaram seu próprio banco de dados de perigos da IAcompilado de 43 diferentes estruturas de risco de IA. “Muitas organizações ainda estão bem no começo desse processo de adoção de IA”, o que significa que elas precisam de orientação sobre os possíveis perigos, diz Neil Thompson, um cientista pesquisador do MIT envolvido no projeto.
Peter Slattery, líder do projeto e pesquisador do MIT Grupo FutureTechque estuda o progresso na computação, diz que o banco de dados destaca o fato de que alguns riscos de IA recebem mais atenção do que outros. Mais de 70 por cento das estruturas mencionam questões de privacidade e segurança, por exemplo, mas apenas cerca de 40 por cento se referem à desinformação.
Os esforços para catalogar e mensurar os riscos da IA terão que evoluir como a IA. Li diz que será importante explorar questões emergentes, como a aderência emocional dos modelos de IA. Sua empresa analisou recentemente a maior e mais poderosa versão do modelo Llama 3.1 da Meta. Ela descobriu que, embora o modelo seja mais capaz, ele não é muito mais seguro, algo que reflete uma desconexão mais ampla. “A segurança não está realmente melhorando significativamente”, diz Li.
.








