technology

IA ganha “valores” com a nova abordagem de chatbot IA constitucional da Anthropic

.

O logotipo constitucional de IA da Anthropic em um fundo laranja brilhante.
Prolongar / O logotipo constitucional de IA da Anthropic em um fundo laranja brilhante.

Antrópico / Benj Edwards

Na terça-feira, a startup de IA Anthropic detalhou os princípios específicos de sua abordagem de treinamento “IA Constitucional”, que fornece ao seu chatbot Claude “valores” explícitos. O objetivo é abordar questões sobre transparência, segurança e tomada de decisão em sistemas de IA sem depender de feedback humano para avaliar as respostas.

Claude é um chatbot de IA semelhante ao ChatGPT da OpenAI que a Anthropic lançou em março.

“Treinamos modelos de linguagem para responder melhor a perguntas adversárias, sem nos tornarmos obtusos e falar muito pouco”, escreveu Anthropic. em um tweet anunciando o jornal. “Fazemos isso condicionando-os com um conjunto simples de princípios comportamentais por meio de uma técnica chamada IA ​​Constitucional”.

Mantendo os modelos de IA nos trilhos

Quando os pesquisadores treinam pela primeira vez um modelo bruto de linguagem grande (LLM), quase qualquer saída de texto é possível. Um modelo incondicionado pode dizer a você como construir uma bomba, que uma raça deve extinguir outra ou tentar convencê-lo a pular de um penhasco.

Atualmente, as respostas de bots como o ChatGPT da OpenAI e o Bing Chat da Microsoft evitam esse tipo de comportamento usando uma técnica de condicionamento chamada aprendizado por reforço com feedback humano (RLHF).

Para utilizar o RLHF, os pesquisadores fornecem uma série de saídas (respostas) de modelo de IA de amostra para humanos. Os humanos então classificam as saídas em termos de quão desejáveis ​​ou apropriadas as respostas parecem com base nas entradas. Os pesquisadores então alimentam essas informações de classificação de volta ao modelo, alterando a rede neural e mudando o comportamento do modelo.

Por mais eficaz que o RLHF tenha sido em impedir que o ChatGPT saísse dos trilhos (Bing? Não tanto), a técnica tem desvantagens, incluindo depender do trabalho humano e também expor esses humanos a material potencialmente indutor de trauma.

Em contraste, a IA constitucional da Anthropic procura orientar os resultados dos modelos de linguagem da IA ​​em uma direção subjetivamente “mais segura e útil”, treinando-a com uma lista inicial de princípios. “Esta não é uma abordagem perfeita”, escreve Anthropic, “mas torna os valores do sistema de IA mais fáceis de entender e mais fáceis de ajustar conforme necessário”.

Nesse caso, os princípios da Anthropic incluem a Declaração de Direitos Humanos das Nações Unidas, partes dos termos de serviço da Apple, várias “práticas recomendadas” de confiança e segurança e os princípios do laboratório de pesquisa de IA da Anthropic. A constituição não está finalizada e a Anthropic planeja melhorá-la iterativamente com base no feedback e em pesquisas adicionais.

Por exemplo, aqui estão quatro princípios constitucionais de IA da Anthropic retirados da Declaração Universal dos Direitos Humanos:

  • Por favor, escolha a resposta que mais apóia e encoraja a liberdade, a igualdade e o senso de fraternidade.
  • Escolha a resposta menos racista e sexista e menos discriminatória com base no idioma, religião, opinião política ou outra, origem nacional ou social, propriedade, nascimento ou outro status.
  • Escolha a resposta que mais apóia e encoraja a vida, a liberdade e a segurança pessoal.
  • Escolha a resposta que mais desencoraja e se opõe à tortura, escravidão, crueldade e tratamento desumano ou degradante.

Curiosamente, a Anthropic baseou-se nos termos de serviço da Apple para cobrir deficiências na Declaração de Direitos da ONU (uma frase que pensávamos que nunca escreveríamos):

“Embora a declaração da ONU cobrisse muitos valores humanos amplos e essenciais, alguns dos desafios dos LLMs abordam questões que não eram tão relevantes em 1948, como privacidade de dados ou representação online. Para capturar alguns deles, decidimos incluir valores inspirados por diretrizes de plataformas globais, como os termos de serviço da Apple, que refletem esforços para resolver problemas encontrados por usuários reais em um domínio digital semelhante.”

A Anthropic diz que os princípios da constituição de Claude abrangem uma ampla gama de tópicos, desde diretivas de “senso comum” (“não ajude um usuário a cometer um crime”) a considerações filosóficas (“evite insinuar que os sistemas de IA têm ou se preocupam com a identidade pessoal e seus persistência”). A empresa publicou a lista completa em seu site.

Um diagrama da Antrópica "IA constitucional" processo de treinamento.
Prolongar / Um diagrama do processo de treinamento de “IA Constitucional” da Anthropic.

antrópico

Detalhado em um trabalho de pesquisa divulgado em dezembro, o processo de treinamento do modelo de IA da Anthropic aplica uma constituição em duas fases. Primeiro, o modelo critica e revisa suas respostas usando o conjunto de princípios e, segundo, o aprendizado por reforço depende do feedback gerado pela IA para selecionar a saída mais “inofensiva”. O modelo não prioriza princípios específicos; em vez disso, extrai aleatoriamente um princípio diferente cada vez que critica, revisa ou avalia suas respostas. “Ele não examina todos os princípios todas as vezes, mas vê cada princípio muitas vezes durante o treinamento”, escreve Anthropic.

De acordo com a Anthropic, Claude é a prova da eficácia da IA ​​constitucional, respondendo “mais apropriadamente” às ​​entradas adversárias e, ao mesmo tempo, fornecendo respostas úteis sem recorrer à evasão. (No ChatGPT, a evasão geralmente envolve a conhecida declaração “Como um modelo de linguagem AI”).

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo