technology

Empresas de IA trabalhando em “constituições” para evitar que a IA vomite conteúdo tóxico

.

montagem de logotipos de empresas de IA

Duas das maiores empresas de inteligência artificial do mundo anunciaram grandes avanços em produtos de IA para consumidores na semana passada.

A OpenAI, apoiada pela Microsoft, disse que seu software ChatGPT agora pode “ver, ouvir e falar”, conversando apenas por voz e respondendo às perguntas dos usuários tanto em imagens quanto em palavras. Enquanto isso, o proprietário do Facebook, Meta, anunciou que um assistente de IA e várias personalidades de chatbot de celebridades estariam disponíveis para bilhões de usuários do WhatsApp e Instagram conversarem.

Mas à medida que estes grupos correm para comercializar a IA, as chamadas “proteções” que impedem que estes sistemas se desviem – como gerar discurso tóxico e desinformação, ou ajudar a cometer crimes – estão a lutar para evoluir em conjunto, de acordo com líderes e investigadores da IA.

Em resposta, empresas líderes, incluindo a Anthropic e a Google DeepMind, estão a criar “constituições de IA” – um conjunto de valores e princípios aos quais os seus modelos podem aderir, num esforço para prevenir abusos. O objetivo é que a IA aprenda com estes princípios fundamentais e se mantenha sob controlo, sem extensa intervenção humana.

“Nós, humanidade, não sabemos como entender o que está acontecendo dentro desses modelos e precisamos resolver esse problema”, disse Dario Amodei, executivo-chefe e cofundador da empresa de IA Anthropic. Ter uma constituição em vigor torna as regras mais transparentes e explícitas, para que qualquer pessoa que a utilize saiba o que esperar. “E você pode argumentar contra o modelo se ele não seguir os princípios”, acrescentou.

A questão de como “alinhar” o software de IA com características positivas, como honestidade, respeito e tolerância, tornou-se central para o desenvolvimento da IA ​​generativa, a tecnologia que sustenta chatbots como o ChatGPT, que pode escrever fluentemente, criar imagens e códigos que são indistinguíveis das criações humanas.

Para limpar as respostas geradas pela IA, as empresas confiaram em grande parte num método conhecido como aprendizagem por reforço por feedback humano (RLHF), que é uma forma de aprender com as preferências humanas.

Para aplicar o RLHF, as empresas contratam grandes equipas de prestadores de serviços para analisar as respostas dos seus modelos de IA e classificá-los como “bons” ou “maus”. Ao analisar respostas suficientes, o modelo fica sintonizado com esses julgamentos e filtra as suas respostas em conformidade.

Este processo básico funciona para refinar as respostas de uma IA em um nível superficial. Mas o método é primitivo, segundo Amodei, que ajudou a desenvolvê-lo enquanto trabalhava anteriormente na OpenAI. “Isso é . . . não é muito preciso ou direcionado, você não sabe por que está obtendo as respostas que está obtendo [and] há muito ruído nesse processo”, disse ele.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo