.
As pessoas resolvem novos problemas prontamente, sem nenhum treinamento ou prática especial, comparando-os com problemas familiares e estendendo a solução para o novo problema. Esse processo, conhecido como raciocínio analógico, há muito é considerado uma habilidade exclusivamente humana.
Mas agora as pessoas podem ter que abrir espaço para um novo garoto no quarteirão.
Pesquisas de psicólogos da UCLA mostram que, surpreendentemente, o modelo de linguagem de inteligência artificial GPT-3 funciona tão bem quanto alunos de graduação quando solicitados a resolver o tipo de problemas de raciocínio que normalmente aparecem em testes de inteligência e testes padronizados, como o SAT. O estudo é publicado em Natureza Comportamento Humano.
Mas os autores do artigo escrevem que o estudo levanta a questão: o GPT-3 está imitando o raciocínio humano como um subproduto de seu enorme conjunto de dados de treinamento de linguagem ou está usando um tipo fundamentalmente novo de processo cognitivo?
Sem acesso ao funcionamento interno do GPT-3 – que é guardado pela OpenAI, a empresa que o criou – os cientistas da UCLA não podem dizer com certeza como suas habilidades de raciocínio funcionam. Eles também escrevem que, embora o GPT-3 tenha um desempenho muito melhor do que o esperado em algumas tarefas de raciocínio, a popular ferramenta de IA ainda falha espetacularmente em outras.
“Não importa quão impressionantes sejam nossos resultados, é importante enfatizar que este sistema tem grandes limitações”, disse Taylor Webb, pesquisador de pós-doutorado em psicologia da UCLA e primeiro autor do estudo. “Ele pode fazer raciocínio analógico, mas não pode fazer coisas que são muito fáceis para as pessoas, como usar ferramentas para resolver uma tarefa física. Quando demos esse tipo de problema – alguns dos quais as crianças podem resolver rapidamente – as coisas sugeridas eram absurdas.”
Webb e seus colegas testaram a capacidade do GPT-3 de resolver um conjunto de problemas inspirados em um teste conhecido como Matrizes Progressivas de Raven, que pedem ao sujeito para prever a próxima imagem em um complicado arranjo de formas. Para permitir que o GPT-3 “veja” as formas, o Webb converteu as imagens em um formato de texto que o GPT-3 poderia processar; essa abordagem também garantiu que a IA nunca teria encontrado as perguntas antes.
Os pesquisadores pediram a 40 alunos de graduação da UCLA para resolver os mesmos problemas.
“Surpreendentemente, o GPT-3 não apenas se saiu tão bem quanto os humanos, mas também cometeu erros semelhantes”, disse Hongjing Lu, professor de psicologia da UCLA, autor sênior do estudo.
O GPT-3 resolveu 80% dos problemas corretamente – bem acima da pontuação média dos sujeitos humanos de pouco menos de 60%, mas bem dentro da faixa das pontuações humanas mais altas.
Os pesquisadores também solicitaram que o GPT-3 resolvesse um conjunto de questões de analogia SAT que eles acreditam nunca terem sido publicadas na internet – o que significa que é improvável que as perguntas façam parte dos dados de treinamento do GPT-3. As perguntas pedem aos usuários que selecionem pares de palavras que compartilham o mesmo tipo de relacionamento. (Por exemplo, no problema “‘Amor’ está para ‘odiar’ assim como ‘rico’ está para qual palavra?”, a solução seria “pobre”.)
Eles compararam as pontuações do GPT-3 com os resultados publicados das pontuações do SAT dos candidatos à faculdade e descobriram que a IA teve um desempenho melhor do que a pontuação média dos humanos.
Os pesquisadores então pediram ao GPT-3 e aos alunos voluntários que resolvessem analogias baseadas em histórias curtas – levando-os a ler uma passagem e depois identificar uma história diferente que transmitisse o mesmo significado. A tecnologia foi pior do que os alunos nesses problemas, embora o GPT-4, a mais recente iteração da tecnologia OpenAI, tenha um desempenho melhor do que o GPT-3.
Os pesquisadores da UCLA desenvolveram seu próprio modelo de computador, inspirado na cognição humana, e compararam suas habilidades com as da IA comercial.
“A IA estava melhorando, mas nosso modelo psicológico de IA ainda era o melhor em resolver problemas de analogia até dezembro passado, quando Taylor recebeu a atualização mais recente do GPT-3, e era tão bom ou melhor”, disse o professor de psicologia da UCLA Keith Holyoak, um coautor do estudo.
Os pesquisadores disseram que o GPT-3 até agora não foi capaz de resolver problemas que exigem a compreensão do espaço físico. Por exemplo, se recebesse descrições de um conjunto de ferramentas – digamos, um tubo de papelão, tesoura e fita adesiva – que poderia usar para transferir chicletes de uma tigela para outra, o GPT-3 propunha soluções bizarras.
“Os modelos de aprendizado de idiomas estão apenas tentando fazer a previsão de palavras, então estamos surpresos que eles possam raciocinar”, disse Lu. “Nos últimos dois anos, a tecnologia deu um grande salto em relação às versões anteriores.”
Os cientistas da UCLA esperam explorar se os modelos de aprendizado de idiomas estão realmente começando a “pensar” como humanos ou estão fazendo algo totalmente diferente que apenas imita o pensamento humano.
“O GPT-3 pode estar pensando como um humano”, disse Holyoak. “Mas, por outro lado, as pessoas não aprenderam ingerindo toda a internet, então o método de treinamento é completamente diferente. Gostaríamos de saber se está realmente fazendo do jeito que as pessoas fazem ou se é algo totalmente novo – um inteligência artificial real – o que seria incrível por si só.”
Para descobrir, eles precisariam determinar os processos cognitivos subjacentes que os modelos de IA estão usando, o que exigiria acesso ao software e aos dados usados para treinar o software – e então administrar testes que eles têm certeza de que o software ainda não fez. Foi dado. Isso, disseram eles, seria o próximo passo para decidir o que a IA deveria se tornar.
“Seria muito útil para pesquisadores de IA e cognitivos ter o back-end para modelos GPT”, disse Webb. “Estamos apenas fazendo entradas e obtendo saídas e não é tão decisivo quanto gostaríamos que fosse.”
.