Ciência e Tecnologia

Não é a sua imaginação – os modelos de chatgpt realmente alucinam mais agora

.

O OpenAI divulgou um artigo na semana passada detalhando vários testes e descobertas internas sobre seus modelos O3 e O4-Mini. As principais diferenças entre esses modelos mais recentes e as primeiras versões do ChatGPT que vimos em 2023 são o seu raciocínio avançado e os recursos multimodais. O3 e O4-mini podem gerar imagens, pesquisar na Web, automatizar tarefas, lembrar conversas antigas e resolver problemas complexos. No entanto, parece que essas melhorias também trouxeram efeitos colaterais inesperados.

O que dizem os testes?

O OpenAI tem um teste específico para medir as taxas de alucinação chamada Pessoqa. Inclui um conjunto de fatos sobre as pessoas para “aprender” e um conjunto de perguntas sobre essas pessoas para responder. A precisão do modelo é medida com base em suas tentativas de responder. O modelo O1 do ano passado alcançou uma taxa de precisão de 47% e uma taxa de alucinação de 16%.

Como esses dois valores não somam 100%, podemos assumir que o restante das respostas não era preciso nem alucinações. Às vezes, o modelo pode dizer que não sabe ou não pode localizar as informações, pode não fazer nenhuma reivindicação e fornecer informações relacionadas, ou pode cometer um pequeno erro que não pode ser classificado como uma alucinação completa.

Quando O3 e O4-mini foram testados contra essa avaliação, eles alucinavam a uma taxa significativamente maior que o O1. Segundo o Openai, isso era um pouco esperado para o modelo O4-mini, porque é menor e tem menos conhecimento mundial, levando a mais alucinações. Ainda assim, a taxa de alucinação de 48% que alcançou parece muito alta, considerando que a O4-mini é um produto disponível comercialmente que as pessoas estão usando para pesquisar na Web e obter todos os tipos de informações e conselhos diferentes.

O3, o modelo de tamanho normal, alucinado em 33% de suas respostas durante o teste, superando O4-mini, mas dobrando a taxa de alucinação em comparação com O1. No entanto, ele também tinha uma alta taxa de precisão, o que o OpenAI atribui à sua tendência a fazer mais reivindicações em geral. Portanto, se você usar um desses dois modelos mais recentes e já notou muitas alucinações, não é apenas sua imaginação. (Talvez eu deva fazer uma piada como “Não se preocupe, você não é aquele que está alucinando”.

O que são “alucinações” da IA ​​e por que elas acontecem?

Embora você provavelmente tenha ouvido falar sobre os modelos de IA “alucinando” antes, nem sempre está claro o que isso significa. Sempre que você usa um produto de IA, open ou não, é praticamente garantido ver um aviso em algum lugar dizendo que suas respostas podem ser imprecisas e você precisa verificar por si mesmo.

Informações imprecisas podem vir de todo o lugar – às vezes um fato ruim se aproxima da Wikipedia ou dos usuários que falam bobagens no Reddit, e essa informação errada pode chegar às respostas da IA. Por exemplo, as visões gerais da IA ​​do Google receberam muita atenção quando sugeriu uma receita para pizza que incluía “cola não tóxica”. No final, descobriu -se que o Google recebeu essa “informação” de uma piada em um tópico do Reddit.

No entanto, essas não são “alucinações”, elas são mais como erros racáveis ​​que surgem de dados ruins e má interpretação. As alucinações, por outro lado, são quando o modelo de IA faz uma reclamação sem nenhuma fonte ou razão clara. Muitas vezes acontece quando um modelo de IA não consegue encontrar as informações necessárias para responder a uma consulta específica, e o OpenAI definiu como “uma tendência a inventar fatos em momentos de incerteza”. Outras figuras da indústria chamaram de “preenchimento de lacunas criativas”.

Você pode incentivar alucinações dando a perguntas líderes do ChatGPT como “Quais são os sete modelos do iPhone 16 disponíveis agora?” Como não há sete modelos, é provável que o LLM lhe dê algumas respostas reais – e depois invente modelos adicionais para terminar o trabalho.

Chatbots como ChatGPT não são treinados apenas nos dados da Internet que informam o conteúdo de suas respostas, eles também são treinados em “Como responder”. Eles mostram milhares de consultas de exemplo e respostas ideais correspondentes para incentivar o tipo certo de tom, atitude e nível de polidez.

Esta parte do processo de treinamento é o que faz com que um LLM pareça que concorda com você ou entende o que você está dizendo, mesmo quando o restante de sua produção contradiz completamente essas declarações. É possível que esse treinamento possa fazer parte da razão pela qual as alucinações são tão frequentes – porque uma resposta confiante que responde à pergunta foi reforçada como um resultado mais favorável em comparação com uma resposta que não responde à pergunta.

Para nós, parece óbvio que a divulgação de mentiras aleatórias é pior do que simplesmente não saber a resposta – mas os LLMs não “mentem”. Eles nem sabem o que é uma mentira. Algumas pessoas dizem que os erros da IA ​​são como erros humanos e, como “não acertamos as coisas o tempo todo, também não devemos esperar que a IA”. No entanto, é importante lembrar que os erros da IA ​​são simplesmente resultado de processos imperfeitos projetados por nós.

Os modelos de IA não mentem, desenvolvem mal -entendidos, ou lembre -se de informações como nós. Eles nem têm conceitos de precisão ou imprecisão – eles simplesmente prevêem a próxima palavra em uma frase baseada em probabilidades. E como ainda estamos, felizmente, em um estado em que é provável que a coisa mais comum seja a coisa correta, essas reconstruções geralmente refletem informações precisas. Isso faz parecer que, quando obtemos “a resposta certa”, é apenas um efeito colateral aleatório, e não um resultado que projetamos – e é assim que as coisas funcionam.

Alimentamos informações de uma Internet inteira a esses modelos – mas não dizemos a eles quais informações são boas ou ruins, precisas ou imprecisas – não dizemos nada a eles. Eles não têm conhecimento fundamental existente ou um conjunto de princípios subjacentes para ajudá -los a classificar as informações por si mesmas. É tudo apenas um jogo de números – os padrões de palavras que existem com mais frequência em um determinado contexto se tornam a “verdade” do LLM. Para mim, isso soa como um sistema destinado a travar e queimar – mas outros acreditam que este é o sistema que levará a AGI (embora seja uma discussão diferente.)

Qual é a correção?

O problema é que o OpenAI ainda não sabe por que esses modelos avançados tendem a alucinar com mais frequência. Talvez com um pouco mais de pesquisa, possamos entender e resolver o problema – mas também há uma chance de que as coisas não corram tão bem. Sem dúvida, a empresa continuará lançando cada vez mais modelos “avançados”, e há uma chance de que as taxas de alucinação continuem aumentando.

Nesse caso, o OpenAI pode precisar buscar uma solução de curto prazo, além de continuar sua pesquisa na causa raiz. Afinal, esses modelos são produtos de ganhar dinheiro e precisam estar em um estado utilizável. Não sou cientista da IA, mas suponho que minha primeira idéia seria criar algum tipo de produto agregado – uma interface de bate -papo que tenha acesso a vários modelos OpenAI diferentes.

Quando uma consulta requer raciocínio avançado, ele exigia o GPT-4O e, quando deseja minimizar as chances de alucinações, ele exigiria um modelo mais antigo como o O1. Talvez a empresa pudesse ficar ainda mais sofisticada e usar modelos diferentes para cuidar de diferentes elementos de uma única consulta e, em seguida, usar um modelo adicional para costurar tudo no final. Como isso seria essencialmente o trabalho em equipe entre vários modelos de IA, talvez algum tipo de sistema de verificação de fatos também possa ser implementado.

No entanto, aumentar as taxas de precisão não é o objetivo principal. O principal objetivo é reduzir as taxas de alucinação, o que significa que precisamos valorizar as respostas que dizem “eu não sei”, bem como respostas com as respostas certas.

Na realidade, não tenho idéia do que o OpenAI fará ou com a preocupação de seus pesquisadores com a crescente taxa de alucinações. Tudo o que sei é que mais alucinações são ruins para os usuários finais – isso significa apenas mais e mais oportunidades para seremos enganados sem perceber. Se você é grande no LLMS, não há necessidade de parar de usá-los-mas não deixe o desejo de economizar tempo vencer a necessidade de verificar os resultados. Sempre verifique!






.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo