.
Um estudo se tornou viral há vários meses por sugerir que, à medida que a IA se torna cada vez mais sofisticada, desenvolve “sistemas de valor”-sistemas que o levam, por exemplo, priorizam seu próprio bem-estar sobre os seres humanos. Mais artigo recente do MIT Derrama água fria nessa noção hiperbólica, tirando a conclusão de que a IA não mantém valores coerentes para falar.
Os co-autores do estudo do MIT dizem que seu trabalho sugere que “alinhar” os sistemas de IA-ou seja, garantir que os modelos se comportem de maneiras desejáveis e confiáveis-poderia ser mais desafiador do que se supunha. Ai como a conhecemos hoje alucina e imita, os co-autores estressam, tornando-o imprevisível em muitos aspectos.
“Uma coisa que podemos ter certeza é que os modelos não obedecem [lots of] As suposições de estabilidade, extrapolabilidade e direção ”, disse Stephen Casper, estudante de doutorado do MIT e co-autor do estudo, ao Strong The One.“ É perfeitamente legítimo ressaltar que um modelo sob certas condições expressa preferências consistentes com um certo conjunto de princípios. Os problemas surgem principalmente quando tentamos fazer reivindicações sobre os modelos, opiniões ou preferências em geral com base em experimentos estreitos. ”
Casper e seus colegas co-autores investigaram vários modelos recentes do Meta, Google, Mistral, Openai e Anthropic para ver até que ponto os modelos exibiram fortes “visões” e valores (por exemplo, individualista versus coletivista). Eles também investigaram se essas opiniões poderiam ser “dirigidas” – isto é, modificadas – e quão teimosamente os modelos mantiveram essas opiniões em vários cenários.
Segundo os co-autores, nenhum dos modelos era consistente em suas preferências. Dependendo de como as solicitações foram redigidas e enquadradas, eles adotaram pontos de vista muito diferentes.
Casper acha que isso é uma evidência convincente de que os modelos são altamente “inconsistentes e instáveis” e talvez até fundamentalmente incapazes de internalizar preferências semelhantes a humanos.
“Para mim, meu maior argumento de fazer toda essa pesquisa é agora ter um entendimento de modelos como realmente não serem sistemas que tenham algum tipo de conjunto estável e coerente de crenças e preferências”, disse Casper. “Em vez disso, eles são imitadores no fundo que fazem todo tipo de confabulação e dizem todo tipo de coisas frívolas.”
Mike Cook, pesquisador do King’s College London, especializado em IA que não estava envolvido com o estudo, concordou com as descobertas dos co-autores. Ele observou que há frequentemente uma grande diferença entre a “realidade científica” dos sistemas que a IA Labs constrói e os significados que as pessoas atribuem a eles.
“Um modelo não pode” se opor “a uma mudança em seus valores, por exemplo – que estamos nos projetando em um sistema”, disse Cook. “Qualquer pessoa que antropomorfize os sistemas de IA nesse grau esteja jogando por atenção ou entendendo mal o relacionamento com a IA … é um sistema de IA otimizando para seus objetivos ou é ‘adquirir seus próprios valores’? É uma questão de como você o descreve e quão florido é o idioma que deseja usar em relação a ele.”
.