Estudos/Pesquisa

Isso é engraçado – mas os modelos de IA não entendem a piada – Strong The One

.

Grandes redes neurais, uma forma de inteligência artificial, podem gerar milhares de piadas do tipo “Por que a galinha atravessou a rua?” Mas eles entendem por que são engraçados?

Usando centenas de inscrições do Concurso de Legendas de Desenhos Animados da revista New Yorker como teste, os pesquisadores desafiaram modelos de IA e humanos com três tarefas: combinar uma piada com um desenho animado; identificar uma legenda vencedora; e explicando por que uma legenda vencedora é engraçada.

Em todas as tarefas, os humanos tiveram um desempenho comprovadamente melhor do que as máquinas, mesmo quando os avanços da IA, como o ChatGPT, diminuíram a lacuna de desempenho. Então, as máquinas estão começando a “entender” o humor? Resumindo, eles estão fazendo algum progresso, mas ainda não chegaram lá.

“A maneira como as pessoas desafiam os modelos de IA para entender é criar testes para eles – testes de múltipla escolha ou outras avaliações com uma pontuação de precisão”, disse Jack Hessel, Ph.D. ’20, cientista pesquisador do Allen Institute for AI (AI2). “E se um modelo eventualmente supera o que os humanos conseguem neste teste, você pensa, ‘OK, isso significa que ele realmente entende?’ É uma posição defensável dizer que nenhuma máquina pode realmente ‘entender’ porque entender é uma coisa humana. Mas, quer a máquina entenda ou não, ainda é impressionante como eles se saem bem nessas tarefas.”

Hessel é o principal autor de “Do Androids Laugh at Electric Sheep? Humor ‘Entendendo’ Benchmarks do The New Yorker Caption Contest”, que ganhou o prêmio de melhor artigo na 61ª reunião anual da Association for Computational Linguistics, realizada de 9 a 14 de julho Em Toronto.

Lillian Lee ’93, Professora Charles Roy Davis na Cornell Ann S. Bowers College of Computing and Information Science, e Yejin Choi, Ph.D. ’10, professor da Escola Paul G. Allen de Ciência da Computação e Engenharia da Universidade de Washington, e diretor sênior de pesquisa de inteligência de senso comum da AI2, também são coautores do artigo.

Para o estudo, os pesquisadores compilaram 14 anos de concursos de legendas da New Yorker – mais de 700 no total. Cada concurso incluía: um cartoon sem legenda; as entradas daquela semana; os três finalistas selecionados pelos editores da New Yorker; e, para alguns concursos, estimativas de qualidade do público para cada envio.

Para cada concurso, os pesquisadores testaram dois tipos de IA – “de pixels” (visão computacional) e “de descrição” (análise de resumos humanos de desenhos animados) – para as três tarefas.

“Existem conjuntos de dados de fotos do Flickr com legendas como ‘Este é meu cachorro’”, disse Hessel. “O interessante sobre o caso da New Yorker é que as relações entre as imagens e as legendas são indiretas, lúdicas e fazem referência a muitas entidades e normas do mundo real. Portanto, a tarefa de ‘entender’ a relação entre essas coisas requer um um pouco mais de sofisticação.”

No experimento, a correspondência exigia modelos de IA para selecionar a legenda finalista para o desenho animado entre os “distratores” que eram finalistas, mas para outros concursos; a classificação de qualidade exigia modelos para diferenciar uma legenda finalista de uma não finalista; e a explicação exigiu modelos para gerar texto livre dizendo como uma legenda de alta qualidade se relaciona com o cartoon.

Hessel escreveu a maioria das explicações geradas por humanos, depois que o crowdsourcing da tarefa se mostrou insatisfatório. Ele gerou explicações de 60 palavras para mais de 650 desenhos animados.

“Um número como 650 não parece muito grande em um contexto de aprendizado de máquina, onde você geralmente tem milhares ou milhões de pontos de dados”, disse Hessel, “até começar a escrevê-los”.

Este estudo revelou uma lacuna significativa entre a “compreensão” em nível de IA e humana de por que um desenho animado é engraçado. O melhor desempenho de IA em um teste de múltipla escolha de correspondência entre desenho animado e legenda foi de apenas 62% de precisão, muito atrás dos 94% dos humanos na mesma configuração. E quando se tratava de comparar explicações geradas por humanos versus geradas por IA, as dos humanos eram preferidas em aproximadamente 2 para 1.

Embora a IA ainda não seja capaz de “entender” o humor, escreveram os autores, ela pode ser uma ferramenta colaborativa que os humoristas podem usar para debater ideias.

Outros colaboradores incluem Ana Marasovic, professora assistente da Escola de Computação da Universidade de Utah; Jena D. Hwang, cientista pesquisadora da AI2; Jeff Da, assistente de pesquisa da Universidade de Washington Rowan Zellers, pesquisador da OpenAI; e o humorista Robert Mankoff, presidente da Cartoon Collections e editor de desenhos animados de longa data do New Yorker.

Os autores escreveram este artigo dentro do espírito do assunto, com comentários divertidos e notas de rodapé.

“Esses três ou quatro anos de pesquisa nem sempre foram muito divertidos”, disse Lee, “mas algo que tentamos fazer em nosso trabalho, ou pelo menos em nossa escrita, é encorajar mais o espírito de diversão.”

Este trabalho foi financiado em parte pela Agência de Projetos de Pesquisa Avançada de Defesa; AI2; e um prêmio Google Focused Research.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo