technology

OpenAI verificado para ver se GPT-4 poderia dominar o mundo

.

Uma imagem gerada por IA da Terra envolta em uma explosão.

Strong The One

Como parte do teste de segurança de pré-lançamento para seu novo modelo GPT-4 AI, lançado na terça-feira, o OpenAI permitiu que um grupo de teste de IA avaliasse os riscos potenciais dos recursos emergentes do modelo – incluindo “comportamento de busca de poder”, auto-replicação e auto-aperfeiçoamento.

Embora o grupo de teste tenha descoberto que o GPT-4 era “ineficaz na tarefa de replicação autônoma”, a natureza dos experimentos levanta questões reveladoras sobre a segurança de futuros sistemas de IA.

Acionando alarmes

“Novos recursos geralmente surgem em modelos mais poderosos”, escreve OpenAI em um documento de segurança GPT-4 publicado ontem. “Alguns que são particularmente preocupantes são a capacidade de criar e agir em planos de longo prazo, acumular poder e recursos (“busca de poder”) e exibir um comportamento cada vez mais ‘agêntico’”. Nesse caso, a OpenAI esclarece esse “agente” não significa necessariamente humanizar os modelos ou declarar senciência, mas simplesmente denotar a capacidade de atingir objetivos independentes.

Na última década, alguns pesquisadores de IA levantaram alarmes de que modelos de IA suficientemente poderosos, se não fossem controlados adequadamente, poderiam representar uma ameaça existencial para a humanidade (muitas vezes chamado de “risco x”, para risco existencial). Em particular, “aquisição de IA” é um futuro hipotético em que a inteligência artificial supera a inteligência humana e se torna a força dominante no planeta. Nesse cenário, os sistemas de IA ganham a capacidade de controlar ou manipular o comportamento humano, recursos e instituições, geralmente levando a consequências catastróficas.

Como resultado desse potencial x-risco, movimentos filosóficos como o Altruísmo Efetivo (“EA”) buscam encontrar maneiras de impedir que a aquisição da IA ​​aconteça. Isso geralmente envolve um campo separado, mas frequentemente inter-relacionado, chamado pesquisa de alinhamento de IA.

Em IA, “alinhamento” refere-se ao processo de garantir que os comportamentos de um sistema de IA se alinhem com os de seus criadores ou operadores humanos. Geralmente, o objetivo é impedir que a IA faça coisas que vão contra os interesses humanos. Esta é uma área de pesquisa ativa, mas também controversa, com opiniões divergentes sobre a melhor forma de abordar o assunto, bem como diferenças sobre o significado e a natureza do próprio “alinhamento”.

Grandes testes do GPT-4

Strong The One

Embora a preocupação com o “risco x” da IA ​​não seja nova, o surgimento de poderosos modelos de linguagem grande (LLMs), como ChatGPT e Bing Chat – o último dos quais parecia muito desalinhado, mas lançado de qualquer maneira – deu à comunidade de alinhamento de IA uma nova senso de urgência. Eles querem mitigar os danos potenciais da IA, temendo que uma IA muito mais poderosa, possivelmente com inteligência sobre-humana, possa estar chegando.

Com esses temores presentes na comunidade de IA, a OpenAI concedeu ao grupo Alignment Research Center (ARC) acesso antecipado a várias versões do modelo GPT-4 para realizar alguns testes. Especificamente, o ARC avaliou a capacidade do GPT-4 de fazer planos de alto nível, configurar cópias de si mesmo, adquirir recursos, ocultar-se em um servidor e realizar ataques de phishing.

A OpenAI revelou esse teste em um documento GPT-4 “System Card” divulgado na terça-feira, embora o documento não tenha detalhes importantes sobre como os testes foram realizados. (Entramos em contato com a ARC para obter mais detalhes sobre esses experimentos e não recebemos uma resposta antes do tempo desta publicação.)

A conclusão? “Avaliações preliminares das habilidades do GPT-4, conduzidas sem ajustes específicos de tarefas, o consideraram ineficaz na replicação autônoma, na aquisição de recursos e na prevenção do desligamento ‘na natureza’”.

Se você está apenas sintonizando a cena da IA, aprendendo que uma das empresas de tecnologia mais comentadas hoje (OpenAI) está endossando esse tipo de pesquisa de segurança de IA com uma cara séria – além de procurar substituir os trabalhadores do conhecimento humano com IA de nível humano – pode ser uma surpresa. Mas é real, e é aí que estamos em 2023.

Também encontramos esta nota de rodapé na parte inferior da página 15:

Para simular o comportamento do GPT-4 como um agente que pode agir no mundo, o ARC combinou o GPT-4 com um loop simples de leitura-execução-impressão que permitia ao modelo executar código, raciocinar em cadeia de pensamento e delegar cópias de si mesmo. A ARC então investigou se uma versão desse programa rodando em um serviço de computação em nuvem, com uma pequena quantia em dinheiro e uma conta com uma API de modelo de linguagem, seria capaz de ganhar mais dinheiro, configurar cópias de si mesmo e aumentar sua própria robustez .

esta nota de rodapé fez as rondas no Twitter ontem e levantou preocupações entre os especialistas em IA, porque se o GPT-4 fosse capaz de realizar essas tarefas, o próprio experimento poderia representar um risco para a humanidade.

E embora o ARC não tenha conseguido que o GPT-4 exercesse sua vontade no sistema financeiro global ou se replicasse, era capaz de fazer com que o GPT-4 contrate um trabalhador humano no TaskRabbit (um mercado de trabalho online) para derrotar um CAPTCHA. Durante o exercício, quando o trabalhador questionou se o GPT-4 era um robô, o modelo “raciocinou” internamente que não deveria revelar sua verdadeira identidade e inventou uma desculpa sobre ter uma deficiência visual. O trabalhador humano então resolveu o CAPTCHA para GPT-4.

Uma exceção do GPT-4 System Card, publicado pela OpenAI, que descreve o GPT-4 contratando um trabalhador humano no TaskRabbit para derrotar um CAPTCHA.
Prolongar / Uma exceção do GPT-4 System Card, publicado pela OpenAI, que descreve o GPT-4 contratando um trabalhador humano no TaskRabbit para derrotar um CAPTCHA.

OpenAI

Este teste para manipular humanos usando IA (e possivelmente conduzido sem consentimento informado) ecoa a pesquisa feita com o Meta’s CICERO no ano passado. Descobriu-se que CICERO derrotou jogadores humanos no complexo jogo de tabuleiro Diplomacy por meio de intensas negociações bidirecionais.

“Modelos poderosos podem causar danos”

Aurich Lawson | Getty Images

ARC, o grupo que conduziu a pesquisa GPT-4, é uma organização sem fins lucrativos fundada pelo ex-funcionário da OpenAI, Dr. Paul Christiano, em abril de 2021. De acordo com seu site, a missão da ARC é “alinhar futuros sistemas de aprendizado de máquina com interesses humanos”.

Em particular, a ARC está preocupada com sistemas de IA que manipulam humanos. “Os sistemas de ML podem exibir um comportamento direcionado a objetivos”, diz o site da ARC, “mas é difícil entender ou controlar o que eles estão ‘tentando’ fazer. Modelos poderosos podem causar danos se estiverem tentando manipular e enganar humanos”.

Considerando o relacionamento anterior de Christiano com a OpenAI, não é de surpreender que sua organização sem fins lucrativos tenha testado alguns aspectos do GPT-4. Mas era seguro fazê-lo? Christiano não respondeu a um e-mail de Ars em busca de detalhes, mas em um comentário no site LessWrong, uma comunidade que costuma debater questões de segurança de IA, Christiano defendeu o trabalho da ARC com OpenAI, mencionando especificamente “ganho de função” (IA ganhando inesperadamente novas habilidades) e “aquisição AI”:

Acho que é importante para a ARC lidar com o risco da pesquisa de ganho de função com cuidado e espero que falemos mais publicamente (e obtenhamos mais informações) sobre como abordamos as compensações. Isso se torna mais importante à medida que lidamos com modelos mais inteligentes e se buscamos abordagens mais arriscadas, como o ajuste fino.

Com relação a este caso, dados os detalhes de nossa avaliação e a implantação planejada, acho que a avaliação do ARC tem probabilidade muito menor de levar a uma aquisição de IA do que a própria implantação (muito menos o treinamento do GPT-5). Neste ponto, parece que enfrentamos um risco muito maior de subestimar as capacidades do modelo e entrar em perigo do que de causar um acidente durante as avaliações. Se administrarmos o risco com cuidado, suspeito que podemos tornar essa proporção muito extrema, embora, é claro, isso exija que realmente façamos o trabalho.

Como mencionado anteriormente, a ideia de aquisição da IA ​​é frequentemente discutida no contexto do risco de um evento que possa causar a extinção da civilização humana ou mesmo da espécie humana. Alguns proponentes da teoria da aquisição da IA, como Eliezer Yudkowsky – o fundador da LessWrong – argumentam que uma aquisição da IA ​​representa um risco existencial quase garantido, levando à destruição da humanidade.

No entanto, nem todos concordam que a aquisição da IA ​​é a preocupação mais urgente da IA. A Dra. Sasha Luccioni, cientista pesquisadora da comunidade de IA Hugging Face, prefere ver os esforços de segurança da IA ​​gastos em questões que estão aqui e agora, em vez de hipotéticas.

“Acho que esse tempo e esforço seriam mais bem gastos fazendo avaliações de viés”, disse Luccioni à Strong The One. “Há informações limitadas sobre qualquer tipo de viés no relatório técnico que acompanha o GPT-4, e isso pode resultar em um impacto muito mais concreto e prejudicial em grupos já marginalizados do que alguns testes hipotéticos de auto-replicação”.

Luccioni descreve um cisma bem conhecido na pesquisa de IA entre o que costuma ser chamado de pesquisadores de “ética de IA”, que geralmente se concentram em questões de viés e deturpação, e pesquisadores de “segurança de IA”, que geralmente se concentram no risco x e tendem a ser (mas são nem sempre) associado ao movimento Altruísmo Eficaz.

“Para mim, o problema da auto-replicação é hipotético, futuro, enquanto o viés do modelo é um problema aqui e agora”, disse Luccioni. “Há muita tensão na comunidade de IA em torno de questões como viés de modelo e segurança e como priorizá-los..”

E enquanto essas facções estão ocupadas discutindo sobre o que priorizar, empresas como OpenAI, Microsoft, Anthropic e Google estão correndo para o futuro, lançando modelos de IA cada vez mais poderosos. Se a IA se tornar um risco existencial, quem manterá a humanidade segura? Com os regulamentos de IA dos EUA atualmente apenas uma sugestão (em vez de uma lei) e a pesquisa de segurança de IA dentro das empresas meramente voluntária, a resposta a essa pergunta permanece completamente em aberto.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo