Ciência e Tecnologia

O novo sistema de segurança da Microsoft pode detectar alucinações nos aplicativos de IA de seus clientes

.

Sarah Bird, diretora de produtos de IA responsável da Microsoft, disse A beira em uma entrevista que sua equipe projetou vários novos recursos de segurança que serão fáceis de usar para clientes do Azure que não estão contratando grupos de red teamers para testar os serviços de IA que construíram. A Microsoft afirma que essas ferramentas com tecnologia LLM podem detectar vulnerabilidades potenciais, monitorar alucinações “que são plausíveis, mas sem suporte” e bloquear prompts maliciosos em tempo real para clientes Azure AI que trabalham com qualquer modelo hospedado na plataforma.

“Sabemos que nem todos os clientes têm profundo conhecimento em ataques de injeção imediata ou conteúdo de ódio, por isso o sistema de avaliação gera os avisos necessários para simular esses tipos de ataques. Os clientes podem então obter uma pontuação e ver os resultados”, diz ela.

Três recursos: Prompt Shields, que bloqueia injeções de prompt ou prompts maliciosos de documentos externos que instruem os modelos a irem contra seu treinamento; Detecção de Groundedness, que encontra e bloqueia alucinações; e avaliações de segurança, que avaliam vulnerabilidades de modelos, agora estão disponíveis em versão prévia no Azure AI. Dois outros recursos para direcionar modelos para saídas seguras e prompts de rastreamento para sinalizar usuários potencialmente problemáticos estarão disponíveis em breve.

Esteja o usuário digitando um prompt ou se o modelo estiver processando dados de terceiros, o sistema de monitoramento irá avaliá-lo para ver se ele aciona alguma palavra proibida ou se tem prompts ocultos antes de decidir enviá-los ao modelo para responder. Depois, o sistema analisa a resposta do modelo e verifica se o modelo alucinou informações que não estavam no documento ou no prompt.

No caso das imagens do Google Gemini, os filtros feitos para reduzir o viés tiveram efeitos indesejados, área onde a Microsoft afirma que suas ferramentas Azure AI permitirão um controle mais personalizado. Bird reconhece que existe a preocupação de que a Microsoft e outras empresas possam estar decidindo o que é ou não apropriado para modelos de IA, então sua equipe adicionou uma maneira para os clientes do Azure alternarem a filtragem de discurso de ódio ou violência que o modelo vê e bloqueia.

No futuro, os utilizadores do Azure também poderão obter um relatório de utilizadores que tentam desencadear saídas inseguras. Bird diz que isso permite que os administradores de sistema descubram quais usuários são sua própria equipe de red teamers e quais podem ser pessoas com intenções mais maliciosas.

Bird diz que os recursos de segurança são imediatamente “anexados” ao GPT-4 e outros modelos populares como o Llama 2. No entanto, como o jardim modelo do Azure contém muitos modelos de IA, os usuários de sistemas de código aberto menores e menos usados ​​podem ter que apontar manualmente o segurança características aos modelos.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo