O novo sistema de segurança da Microsoft pode detectar alucinações nos aplicativos de IA de seus clientes

Sarah Bird, diretora de produtos de IA responsável da Microsoft, disse A beira em uma entrevista que sua equipe projetou vários novos recursos de segurança que serão fáceis de usar para clientes do Azure que não estão contratando grupos de red teamers para testar os serviços de IA que construíram. A Microsoft afirma que essas ferramentas com tecnologia LLM podem detectar vulnerabilidades potenciais, monitorar alucinações “que são plausíveis, mas sem suporte” e bloquear prompts maliciosos em tempo real para clientes Azure AI que trabalham com qualquer modelo hospedado na plataforma.

“Sabemos que nem todos os clientes têm profundo conhecimento em ataques de injeção imediata ou conteúdo de ódio, por isso o sistema de avaliação gera os avisos necessários para simular esses tipos de ataques. Os clientes podem então obter uma pontuação e ver os resultados”, diz ela.

Três recursos: Prompt Shields, que bloqueia injeções de prompt ou prompts maliciosos de documentos externos que instruem os modelos a irem contra seu treinamento; Detecção de Groundedness, que encontra e bloqueia alucinações; e avaliações de segurança, que avaliam vulnerabilidades de modelos, agora estão disponíveis em versão prévia no Azure AI. Dois outros recursos para direcionar modelos para saídas seguras e prompts de rastreamento para sinalizar usuários potencialmente problemáticos estarão disponíveis em breve.

Esteja o usuário digitando um prompt ou se o modelo estiver processando dados de terceiros, o sistema de monitoramento irá avaliá-lo para ver se ele aciona alguma palavra proibida ou se tem prompts ocultos antes de decidir enviá-los ao modelo para responder. Depois, o sistema analisa a resposta do modelo e verifica se o modelo alucinou informações que não estavam no documento ou no prompt.

No caso das imagens do Google Gemini, os filtros feitos para reduzir o viés tiveram efeitos indesejados, área onde a Microsoft afirma que suas ferramentas Azure AI permitirão um controle mais personalizado. Bird reconhece que existe a preocupação de que a Microsoft e outras empresas possam estar decidindo o que é ou não apropriado para modelos de IA, então sua equipe adicionou uma maneira para os clientes do Azure alternarem a filtragem de discurso de ódio ou violência que o modelo vê e bloqueia.

No futuro, os utilizadores do Azure também poderão obter um relatório de utilizadores que tentam desencadear saídas inseguras. Bird diz que isso permite que os administradores de sistema descubram quais usuários são sua própria equipe de red teamers e quais podem ser pessoas com intenções mais maliciosas.

Bird diz que os recursos de segurança são imediatamente “anexados” ao GPT-4 e outros modelos populares como o Llama 2. No entanto, como o jardim modelo do Azure contém muitos modelos de IA, os usuários de sistemas de código aberto menores e menos usados podem ter que apontar manualmente o segurança características aos modelos.

Etiquetas

Strongmarço 28, 2024

0 2 minutos de leitura

Mostrar mais

Ler o Próximo

O novo sistema de segurança da Microsoft pode detectar alucinações nos aplicativos de IA de seus clientes

Strong

Ler o Próximo

Os agentes de fronteira dos EUA estão pedindo ajuda para tirar fotos de todos que entram no país de carro

Centenas de sites de comércio eletrônico invadidos em ataques de cadeia de suprimentos

Clone de sinal usado por Trump Official Pares operações após o relato que foi invadido

O homem se declara culpado de usar o software malicioso de IA para invadir o funcionário da Disney

As defesas de suco de iOS e Android têm sido triviais para ignorar há anos

Cuidado com este golpe furtivo do Google Phishing

O código gerado pela IA pode ser um desastre para a cadeia de suprimentos de software. Aqui está o porquê.

Marks & Spencer confirma o incidente de segurança cibernética em meio à interrupção contínua

Agenda de StrictlyVC em Londres para 13 de maio

SignalGate: Paixão problemática de Pete Hegseth por GroupChats

Os agentes de fronteira dos EUA estão pedindo ajuda para tirar fotos de todos que entram no país de carro

Centenas de sites de comércio eletrônico invadidos em ataques de cadeia de suprimentos

Clone de sinal usado por Trump Official Pares operações após o relato que foi invadido

O homem se declara culpado de usar o software malicioso de IA para invadir o funcionário da Disney

As defesas de suco de iOS e Android têm sido triviais para ignorar há anos

Cuidado com este golpe furtivo do Google Phishing

O código gerado pela IA pode ser um desastre para a cadeia de suprimentos de software. Aqui está o porquê.

Marks & Spencer confirma o incidente de segurança cibernética em meio à interrupção contínua

Agenda de StrictlyVC em Londres para 13 de maio

SignalGate: Paixão problemática de Pete Hegseth por GroupChats

Deixe um comentário Cancelar resposta

Ler o Próximo

Os agentes de fronteira dos EUA estão pedindo ajuda para tirar fotos de todos que entram no país de carro

Centenas de sites de comércio eletrônico invadidos em ataques de cadeia de suprimentos

Clone de sinal usado por Trump Official Pares operações após o relato que foi invadido

O homem se declara culpado de usar o software malicioso de IA para invadir o funcionário da Disney

As defesas de suco de iOS e Android têm sido triviais para ignorar há anos

Cuidado com este golpe furtivo do Google Phishing

O código gerado pela IA pode ser um desastre para a cadeia de suprimentos de software. Aqui está o porquê.

Marks & Spencer confirma o incidente de segurança cibernética em meio à interrupção contínua

Agenda de StrictlyVC em Londres para 13 de maio

SignalGate: Paixão problemática de Pete Hegseth por GroupChats

Artigos relacionados

Deixe um comentário Cancelar resposta