.
Se você leu o Twitter ou o subreddit ChatGPT do Reddit, verá uma pergunta mais do que qualquer outra: o ChatGPT está ficando mais burro?
O desempenho do principal chatbot de IA geradora do mundo está diminuindo com o passar do tempo ou os milhões de usuários do ChatGPT estão alucinando coletivamente sobre problemas de qualidade?
O ChatGPT está piorando?
É algo que muitos usuários do ChatGPT se perguntam: o ChatGPT está ficando mais burro? A OpenAI lança atualizações frequentes para o ChatGPT, projetadas para ajustar suas respostas, segurança e muito mais, usando feedback, prompts e dados do usuário para informar sua direção.
Mas onde o ChatGPT parecia uma solução genial para quase todos os problemas quando foi lançado, mais usuários do que nunca relatam problemas com suas respostas e resultados. Particularmente dignos de nota são o raciocínio, a codificação e as habilidades matemáticas do ChatGPT, embora outros observem que ele também luta com tarefas criativas.
A maneira mais fácil para a maioria dos usuários do ChatGPT verificar como suas respostas mudaram ao longo do tempo é repetir um prompt usado anteriormente (de preferência dos primeiros dias do ChatGPT) e analisar as duas saídas.
As respostas que exigem saídas específicas, como as que envolvem codificação e matemática, provavelmente são mais fáceis de comparar diretamente.
Estudo de Stanford sugere abandono do ChatGPT
Um grupo de pesquisa combinado da Universidade de Stanford e da UC Berkley acredita que esses sentimentos de que o ChatGPT está mudando podem estar certos. Artigo de Lingjiao Chen, Matei Zaharia e James Zou Como o comportamento do ChatGPT está mudando com o tempo? [PDF] é um dos primeiros estudos aprofundados sobre as capacidades de mudança do ChatGPT.
O resumo do relatório explica:
Descobrimos que o desempenho e o comportamento do GPT-3.5 e do GPT-4 podem variar muito ao longo do tempo. Por exemplo, o GPT-4 (março de 2023) foi muito bom em identificar números primos (precisão de 97,6%), mas o GPT-4 (junho de 2023) foi muito ruim nessas mesmas questões (precisão de 2,4%). Curiosamente, o GPT-3.5 (junho de 2023) foi muito melhor do que o GPT-3.5 (março de 2023) nesta tarefa. O GPT-4 estava menos disposto a responder perguntas delicadas em junho do que em março, e tanto o GPT-4 quanto o GPT-3.5 tiveram mais erros de formatação na geração de código em junho do que em março.
Quando confrontado com problemas de matemática que o ChatGPT poderia resolver anteriormente no início de 2023, as respostas no final do ano foram extremamente imprecisas. Além disso, o ChatGPT explicou em detalhes por que a resposta estava correta, apesar de estar errada. Instâncias de alucinação de IA não são novidade, mas os números nos gráficos abaixo sugerem uma mudança significativa no raciocínio geral.
Os gráficos sugerem que as respostas do ChatGPT estão à deriva, enfatizadas ainda mais pelo relatório.
A precisão do GPT-4 caiu de 97,6% em março para 2,4% em junho, e houve uma grande melhora na precisão do GPT-3.5, de 7,4% para 86,8%. Além disso, a resposta do GPT-4 ficou muito mais compacta: sua verbosidade média (número de caracteres gerados) caiu de 821,2 em março para 3,8 em junho. Por outro lado, houve um crescimento de cerca de 40% no comprimento da resposta do GPT-3.5. A sobreposição de respostas entre as versões de março e junho também foi pequena para ambos os serviços.
O relatório explica que a grande cadeia de pensamento do modelo de linguagem do ChatGPT “não funcionou” quando apresentada às perguntas em junho. O desvio de conversa sempre foi um problema notável com LLMs, mas a variação extrema nas respostas sugere problemas de desempenho e alterações no ChatGPT.
O ChatGPT está piorando? OpenAI diz não
É apenas uma coincidência que usuários casuais e prolíficos do ChatGPT estejam percebendo a mudança na qualidade do ChatGPT?
O trabalho de pesquisa sugere que não, mas o vice-presidente de produto da OpenAI, Peter Welinder, sugere o contrário.
Além disso, Welinder posteriormente apontou para os lançamentos da OpenAI para ChatGPT e o fluxo constante de atualizações que a empresa entregou ao longo de 2023.
Ainda assim, isso não impediu inúmeras respostas ao seu tweet detalhando como os usuários acharam as respostas do ChatGPT insuficientes, com muitos reservando um tempo para anotar prompts e respostas.
O OpenAI pode restaurar o ChatGPT ao seu estado original?
Os primeiros dias do ChatGPT parecem distantes agora; Novembro de 2022 é uma memória nebulosa e o mundo da IA se move rapidamente.
Para muitos, o estudo de Stanford/Berkeley ilustra perfeitamente os problemas e as frustrações do uso do ChatGPT. Outros afirmam que os ajustes e alterações feitas no ChatGPT para torná-lo uma ferramenta mais segura e inclusiva também alteraram diretamente sua capacidade de raciocinar adequadamente, enfraquecendo seu conhecimento e recursos gerais a ponto de inutilizá-lo.
Parece que há poucas dúvidas de que o ChatGPT mudou. Se o ChatGPT recuperará sua proeza original é outra questão.
.