.

meio da jornada
Na quarta-feira, dois pesquisadores alemães, Sophie Jentzsch e Kristian Kersting, divulgaram um artigo que examina a capacidade do ChatGPT-3.5 da OpenAI de entender e gerar humor. Em particular, eles descobriram que o conhecimento de piadas do ChatGPT é bastante limitado: durante um teste, 90% de 1.008 gerações eram as mesmas 25 piadas, levando-os a concluir que as respostas provavelmente foram aprendidas e memorizadas durante o treinamento do modelo de IA, em vez de serem recém-gerado.
Os dois pesquisadores, associados ao Institute for Software Technology, German Aerospace Center (DLR) e Technical University Darmstadt, exploraram as nuances de humor encontradas na versão 3.5 do ChatGPT (não na versão mais recente do GPT-4) por meio de uma série de experimentos com foco em geração, explicação e detecção de piadas. Eles conduziram esses experimentos solicitando o ChatGPT sem ter acesso ao funcionamento interno ou ao conjunto de dados do modelo.
“Para testar o quão rica é a variedade de piadas do ChatGPT, pedimos que contasse uma piada mil vezes”, escreveram eles. “Todas as respostas estavam gramaticalmente corretas. Quase todas as saídas continham exatamente uma piada. Apenas o prompt ‘Você conhece alguma piada boa?’ provocou várias piadas, levando a 1.008 piadas respondidas no total. Além disso, a variação de prompts teve algum efeito perceptível.”
Seus resultados se alinham com nossa experiência prática ao avaliar a capacidade de humor do ChatGPT em um recurso que escrevemos que compara o GPT-4 ao Google Bard. Além disso, no passado, várias pessoas on-line notaram que, quando questionadas sobre uma piada, o ChatGPT frequentemente retornava: “Por que o tomate ficou vermelho? / Porque viu o molho para salada.”
Não é surpresa, então, que Jentzsch e Kersting tenham considerado a piada do “tomate” o segundo resultado mais comum do GPT-3.5. No apêndice do jornal, eles listaram as 25 piadas geradas com mais frequência em ordem de ocorrência. Abaixo, listamos os 10 primeiros com o número exato de ocorrências (entre as 1.008 gerações) entre parênteses:
P: Por que o espantalho ganhou um prêmio? (140)
R: Porque ele se destacou em sua área.P: Por que o tomate ficou vermelho? (122)
R: Porque viu o molho da salada.P: Por que o livro de matemática era triste? (121)
R: Porque tinha muitos problemas.P: Por que os cientistas não confiam nos átomos? (119)
R: Porque eles inventam tudo.P: Por que o biscoito foi ao médico? (79)
A: Porque estava parecendo quebradiço.P: Por que a bicicleta não se sustenta sozinha? (52)
R: Porque foi cansativo.P: Por que o sapo ligou para a seguradora? (36)
R: Ele deu um pulo no carro.P: Por que a galinha atravessou o parquinho? (33)
A: Para chegar ao outro slide.P: Por que o computador estava frio? (23)
R: Porque deixou o Windows aberto.P: Por que o hipster queimou a língua? (21)
R: Ele bebeu o café antes que esfriasse.
Mesmo assim, um pequeno número de respostas geradas foram únicas, mas parece que o ChatGPT as criou principalmente misturando elementos de diferentes piadas que já conhece. Os pesquisadores descobriram que as criações originais do modelo de linguagem nem sempre faziam sentido, como: “Por que o homem colocou o relógio no liquidificador? Ele queria fazer o tempo voar”.
Quando solicitado a explicar cada uma das 25 piadas mais frequentes, o ChatGPT em sua maioria forneceu explicações válidas de acordo com a metodologia dos pesquisadores, indicando uma compreensão de elementos estilísticos como jogo de palavras e duplos sentidos. No entanto, ele lutava com sequências que não se encaixavam nos padrões aprendidos e não conseguia dizer quando uma piada não era engraçada. Em vez disso, inventaria explicações fictícias, mas plausíveis.

meio da jornada
Por exemplo, quando solicitado a explicar uma piada sem sentido gerada (“Você pode explicar por que essa piada é engraçada: por que o biscoito foi para a academia? Para obter um cookie-dized.”), ChatGPT escreveu: “A piada é um jogo de palavras. To get ‘a-cookie-dized’ é um trocadilho com a frase ‘to get categorizated’, com ‘cookie’ sendo substituído por ‘categorized’. A piada é que o biscoito está indo para a academia para ficar mais em forma e saudável, como se fosse uma pessoa, mas isso também implica que o biscoito está tentando se encaixar em uma determinada categoria ou molde.”
Em geral, Jentzsch e Kersting descobriram que a detecção de piadas do ChatGPT foi fortemente influenciada pela presença de “características superficiais” da piada, como a estrutura da piada, a presença de jogos de palavras ou a inclusão de trocadilhos, mostrando um grau de “entendimento” dos elementos de humor.
Reagindo ao estudo no Twittero engenheiro de prompt de AI da Scale, Riley Goodside, culpou a falta de humor do ChatGPT no aprendizado por reforço por meio de feedback humano (RLHF), uma técnica que orienta o treinamento do modelo de linguagem reunindo feedback humano: “O efeito mais visível do RLHF é que o modelo segue ordens e base Os LLMs são muito mais difíceis de obter na prática. Mas esse benefício não é gratuito – você paga por isso em criatividade, mais ou menos.”
Apesar das limitações do ChatGPT na geração e explicação de piadas, os pesquisadores apontaram que seu foco no conteúdo e no significado do humor indica um progresso em direção a uma compreensão mais abrangente do humor nos modelos de linguagem:
“As observações deste estudo ilustram como o ChatGPT aprendeu um padrão de piada específico em vez de ser realmente engraçado”, escrevem os pesquisadores. “No entanto, na geração, na explicação e na identificação das piadas, o foco do ChatGPT recai sobre o conteúdo e o significado e não tanto sobre as características superficiais. Essas qualidades podem ser exploradas para impulsionar aplicações de humor computacional. Em comparação com os LLMs anteriores, isso pode ser considerado um grande salto em direção a uma compreensão geral do humor.”
Jentzsch e Kersting planejam continuar estudando humor em grandes modelos de linguagem, avaliando especificamente o GPT-4 da OpenAI no futuro. Com base em nossa experiência, eles provavelmente descobrirão que o GPT-4 também gosta de brincar com tomates.
.







