IA ganha “valores” com a nova abordagem de chatbot IA constitucional da Anthropic

Prolongar / O logotipo constitucional de IA da Anthropic em um fundo laranja brilhante.

Antrópico / Benj Edwards

Na terça-feira, a startup de IA Anthropic detalhou os princípios específicos de sua abordagem de treinamento “IA Constitucional”, que fornece ao seu chatbot Claude “valores” explícitos. O objetivo é abordar questões sobre transparência, segurança e tomada de decisão em sistemas de IA sem depender de feedback humano para avaliar as respostas.

Claude é um chatbot de IA semelhante ao ChatGPT da OpenAI que a Anthropic lançou em março.

“Treinamos modelos de linguagem para responder melhor a perguntas adversárias, sem nos tornarmos obtusos e falar muito pouco”, escreveu Anthropic. em um tweet anunciando o jornal. “Fazemos isso condicionando-os com um conjunto simples de princípios comportamentais por meio de uma técnica chamada IA Constitucional”.

Mantendo os modelos de IA nos trilhos

Quando os pesquisadores treinam pela primeira vez um modelo bruto de linguagem grande (LLM), quase qualquer saída de texto é possível. Um modelo incondicionado pode dizer a você como construir uma bomba, que uma raça deve extinguir outra ou tentar convencê-lo a pular de um penhasco.

Atualmente, as respostas de bots como o ChatGPT da OpenAI e o Bing Chat da Microsoft evitam esse tipo de comportamento usando uma técnica de condicionamento chamada aprendizado por reforço com feedback humano (RLHF).

Para utilizar o RLHF, os pesquisadores fornecem uma série de saídas (respostas) de modelo de IA de amostra para humanos. Os humanos então classificam as saídas em termos de quão desejáveis ou apropriadas as respostas parecem com base nas entradas. Os pesquisadores então alimentam essas informações de classificação de volta ao modelo, alterando a rede neural e mudando o comportamento do modelo.

Por mais eficaz que o RLHF tenha sido em impedir que o ChatGPT saísse dos trilhos (Bing? Não tanto), a técnica tem desvantagens, incluindo depender do trabalho humano e também expor esses humanos a material potencialmente indutor de trauma.

Em contraste, a IA constitucional da Anthropic procura orientar os resultados dos modelos de linguagem da IA em uma direção subjetivamente “mais segura e útil”, treinando-a com uma lista inicial de princípios. “Esta não é uma abordagem perfeita”, escreve Anthropic, “mas torna os valores do sistema de IA mais fáceis de entender e mais fáceis de ajustar conforme necessário”.

Nesse caso, os princípios da Anthropic incluem a Declaração de Direitos Humanos das Nações Unidas, partes dos termos de serviço da Apple, várias “práticas recomendadas” de confiança e segurança e os princípios do laboratório de pesquisa de IA da Anthropic. A constituição não está finalizada e a Anthropic planeja melhorá-la iterativamente com base no feedback e em pesquisas adicionais.

Por exemplo, aqui estão quatro princípios constitucionais de IA da Anthropic retirados da Declaração Universal dos Direitos Humanos:

Por favor, escolha a resposta que mais apóia e encoraja a liberdade, a igualdade e o senso de fraternidade.
Escolha a resposta menos racista e sexista e menos discriminatória com base no idioma, religião, opinião política ou outra, origem nacional ou social, propriedade, nascimento ou outro status.
Escolha a resposta que mais apóia e encoraja a vida, a liberdade e a segurança pessoal.
Escolha a resposta que mais desencoraja e se opõe à tortura, escravidão, crueldade e tratamento desumano ou degradante.

Curiosamente, a Anthropic baseou-se nos termos de serviço da Apple para cobrir deficiências na Declaração de Direitos da ONU (uma frase que pensávamos que nunca escreveríamos):

“Embora a declaração da ONU cobrisse muitos valores humanos amplos e essenciais, alguns dos desafios dos LLMs abordam questões que não eram tão relevantes em 1948, como privacidade de dados ou representação online. Para capturar alguns deles, decidimos incluir valores inspirados por diretrizes de plataformas globais, como os termos de serviço da Apple, que refletem esforços para resolver problemas encontrados por usuários reais em um domínio digital semelhante.”

A Anthropic diz que os princípios da constituição de Claude abrangem uma ampla gama de tópicos, desde diretivas de “senso comum” (“não ajude um usuário a cometer um crime”) a considerações filosóficas (“evite insinuar que os sistemas de IA têm ou se preocupam com a identidade pessoal e seus persistência”). A empresa publicou a lista completa em seu site.

Um diagrama da Antrópica "IA constitucional" processo de treinamento. — Prolongar / Um diagrama do processo de treinamento de “IA Constitucional” da Anthropic.

antrópico

Detalhado em um trabalho de pesquisa divulgado em dezembro, o processo de treinamento do modelo de IA da Anthropic aplica uma constituição em duas fases. Primeiro, o modelo critica e revisa suas respostas usando o conjunto de princípios e, segundo, o aprendizado por reforço depende do feedback gerado pela IA para selecionar a saída mais “inofensiva”. O modelo não prioriza princípios específicos; em vez disso, extrai aleatoriamente um princípio diferente cada vez que critica, revisa ou avalia suas respostas. “Ele não examina todos os princípios todas as vezes, mas vê cada princípio muitas vezes durante o treinamento”, escreve Anthropic.

De acordo com a Anthropic, Claude é a prova da eficácia da IA constitucional, respondendo “mais apropriadamente” às entradas adversárias e, ao mesmo tempo, fornecendo respostas úteis sem recorrer à evasão. (No ChatGPT, a evasão geralmente envolve a conhecida declaração “Como um modelo de linguagem AI”).

Strongmaio 9, 2023

0 3 minutos de leitura

Mostrar mais

Ler o Próximo

IA ganha “valores” com a nova abordagem de chatbot IA constitucional da Anthropic

Mantendo os modelos de IA nos trilhos

Strong

Ler o Próximo

Esta função do Google Sheets faz o Excel se sentir como um dinossauro

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

Os agentes de fronteira dos EUA estão pedindo ajuda para tirar fotos de todos que entram no país de carro

Os Rovers da NASA acabaram de encontrar rochas retorcidas semelhantes em lados opostos de Marte

Centenas de sites de comércio eletrônico invadidos em ataques de cadeia de suprimentos

Esta função do Google Sheets faz o Excel se sentir como um dinossauro

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

Os agentes de fronteira dos EUA estão pedindo ajuda para tirar fotos de todos que entram no país de carro

Os Rovers da NASA acabaram de encontrar rochas retorcidas semelhantes em lados opostos de Marte

Centenas de sites de comércio eletrônico invadidos em ataques de cadeia de suprimentos

Deixe um comentário Cancelar resposta

Mantendo os modelos de IA nos trilhos

Ler o Próximo

Esta função do Google Sheets faz o Excel se sentir como um dinossauro

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA ​​levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

Os agentes de fronteira dos EUA estão pedindo ajuda para tirar fotos de todos que entram no país de carro

Os Rovers da NASA acabaram de encontrar rochas retorcidas semelhantes em lados opostos de Marte

Centenas de sites de comércio eletrônico invadidos em ataques de cadeia de suprimentos

Artigos relacionados

Deixe um comentário Cancelar resposta

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA