.
O OpenAI divulgou um artigo na semana passada detalhando vários testes e descobertas internas sobre seus modelos O3 e O4-Mini. As principais diferenças entre esses modelos mais recentes e as primeiras versões do ChatGPT que vimos em 2023 são o seu raciocínio avançado e os recursos multimodais. O3 e O4-mini podem gerar imagens, pesquisar na Web, automatizar tarefas, lembrar conversas antigas e resolver problemas complexos. No entanto, parece que essas melhorias também trouxeram efeitos colaterais inesperados.
O que dizem os testes?
O OpenAI tem um teste específico para medir as taxas de alucinação chamada Pessoqa. Inclui um conjunto de fatos sobre as pessoas para “aprender” e um conjunto de perguntas sobre essas pessoas para responder. A precisão do modelo é medida com base em suas tentativas de responder. O modelo O1 do ano passado alcançou uma taxa de precisão de 47% e uma taxa de alucinação de 16%.
Como esses dois valores não somam 100%, podemos assumir que o restante das respostas não era preciso nem alucinações. Às vezes, o modelo pode dizer que não sabe ou não pode localizar as informações, pode não fazer nenhuma reivindicação e fornecer informações relacionadas, ou pode cometer um pequeno erro que não pode ser classificado como uma alucinação completa.

Quando O3 e O4-mini foram testados contra essa avaliação, eles alucinavam a uma taxa significativamente maior que o O1. Segundo o Openai, isso era um pouco esperado para o modelo O4-mini, porque é menor e tem menos conhecimento mundial, levando a mais alucinações. Ainda assim, a taxa de alucinação de 48% que alcançou parece muito alta, considerando que a O4-mini é um produto disponível comercialmente que as pessoas estão usando para pesquisar na Web e obter todos os tipos de informações e conselhos diferentes.
O3, o modelo de tamanho normal, alucinado em 33% de suas respostas durante o teste, superando O4-mini, mas dobrando a taxa de alucinação em comparação com O1. No entanto, ele também tinha uma alta taxa de precisão, o que o OpenAI atribui à sua tendência a fazer mais reivindicações em geral. Portanto, se você usar um desses dois modelos mais recentes e já notou muitas alucinações, não é apenas sua imaginação. (Talvez eu deva fazer uma piada como “Não se preocupe, você não é aquele que está alucinando”.
O que são “alucinações” da IA e por que elas acontecem?
Embora você provavelmente tenha ouvido falar sobre os modelos de IA “alucinando” antes, nem sempre está claro o que isso significa. Sempre que você usa um produto de IA, open ou não, é praticamente garantido ver um aviso em algum lugar dizendo que suas respostas podem ser imprecisas e você precisa verificar por si mesmo.
Informações imprecisas podem vir de todo o lugar – às vezes um fato ruim se aproxima da Wikipedia ou dos usuários que falam bobagens no Reddit, e essa informação errada pode chegar às respostas da IA. Por exemplo, as visões gerais da IA do Google receberam muita atenção quando sugeriu uma receita para pizza que incluía “cola não tóxica”. No final, descobriu -se que o Google recebeu essa “informação” de uma piada em um tópico do Reddit.
No entanto, essas não são “alucinações”, elas são mais como erros racáveis que surgem de dados ruins e má interpretação. As alucinações, por outro lado, são quando o modelo de IA faz uma reclamação sem nenhuma fonte ou razão clara. Muitas vezes acontece quando um modelo de IA não consegue encontrar as informações necessárias para responder a uma consulta específica, e o OpenAI definiu como “uma tendência a inventar fatos em momentos de incerteza”. Outras figuras da indústria chamaram de “preenchimento de lacunas criativas”.
Você pode incentivar alucinações dando a perguntas líderes do ChatGPT como “Quais são os sete modelos do iPhone 16 disponíveis agora?” Como não há sete modelos, é provável que o LLM lhe dê algumas respostas reais – e depois invente modelos adicionais para terminar o trabalho.

Chatbots como ChatGPT não são treinados apenas nos dados da Internet que informam o conteúdo de suas respostas, eles também são treinados em “Como responder”. Eles mostram milhares de consultas de exemplo e respostas ideais correspondentes para incentivar o tipo certo de tom, atitude e nível de polidez.
Esta parte do processo de treinamento é o que faz com que um LLM pareça que concorda com você ou entende o que você está dizendo, mesmo quando o restante de sua produção contradiz completamente essas declarações. É possível que esse treinamento possa fazer parte da razão pela qual as alucinações são tão frequentes – porque uma resposta confiante que responde à pergunta foi reforçada como um resultado mais favorável em comparação com uma resposta que não responde à pergunta.
Para nós, parece óbvio que a divulgação de mentiras aleatórias é pior do que simplesmente não saber a resposta – mas os LLMs não “mentem”. Eles nem sabem o que é uma mentira. Algumas pessoas dizem que os erros da IA são como erros humanos e, como “não acertamos as coisas o tempo todo, também não devemos esperar que a IA”. No entanto, é importante lembrar que os erros da IA são simplesmente resultado de processos imperfeitos projetados por nós.
Os modelos de IA não mentem, desenvolvem mal -entendidos, ou lembre -se de informações como nós. Eles nem têm conceitos de precisão ou imprecisão – eles simplesmente prevêem a próxima palavra em uma frase baseada em probabilidades. E como ainda estamos, felizmente, em um estado em que é provável que a coisa mais comum seja a coisa correta, essas reconstruções geralmente refletem informações precisas. Isso faz parecer que, quando obtemos “a resposta certa”, é apenas um efeito colateral aleatório, e não um resultado que projetamos – e é assim que as coisas funcionam.
Alimentamos informações de uma Internet inteira a esses modelos – mas não dizemos a eles quais informações são boas ou ruins, precisas ou imprecisas – não dizemos nada a eles. Eles não têm conhecimento fundamental existente ou um conjunto de princípios subjacentes para ajudá -los a classificar as informações por si mesmas. É tudo apenas um jogo de números – os padrões de palavras que existem com mais frequência em um determinado contexto se tornam a “verdade” do LLM. Para mim, isso soa como um sistema destinado a travar e queimar – mas outros acreditam que este é o sistema que levará a AGI (embora seja uma discussão diferente.)
Qual é a correção?

O problema é que o OpenAI ainda não sabe por que esses modelos avançados tendem a alucinar com mais frequência. Talvez com um pouco mais de pesquisa, possamos entender e resolver o problema – mas também há uma chance de que as coisas não corram tão bem. Sem dúvida, a empresa continuará lançando cada vez mais modelos “avançados”, e há uma chance de que as taxas de alucinação continuem aumentando.
Nesse caso, o OpenAI pode precisar buscar uma solução de curto prazo, além de continuar sua pesquisa na causa raiz. Afinal, esses modelos são produtos de ganhar dinheiro e precisam estar em um estado utilizável. Não sou cientista da IA, mas suponho que minha primeira idéia seria criar algum tipo de produto agregado – uma interface de bate -papo que tenha acesso a vários modelos OpenAI diferentes.
Quando uma consulta requer raciocínio avançado, ele exigia o GPT-4O e, quando deseja minimizar as chances de alucinações, ele exigiria um modelo mais antigo como o O1. Talvez a empresa pudesse ficar ainda mais sofisticada e usar modelos diferentes para cuidar de diferentes elementos de uma única consulta e, em seguida, usar um modelo adicional para costurar tudo no final. Como isso seria essencialmente o trabalho em equipe entre vários modelos de IA, talvez algum tipo de sistema de verificação de fatos também possa ser implementado.
No entanto, aumentar as taxas de precisão não é o objetivo principal. O principal objetivo é reduzir as taxas de alucinação, o que significa que precisamos valorizar as respostas que dizem “eu não sei”, bem como respostas com as respostas certas.
Na realidade, não tenho idéia do que o OpenAI fará ou com a preocupação de seus pesquisadores com a crescente taxa de alucinações. Tudo o que sei é que mais alucinações são ruins para os usuários finais – isso significa apenas mais e mais oportunidades para seremos enganados sem perceber. Se você é grande no LLMS, não há necessidade de parar de usá-los-mas não deixe o desejo de economizar tempo vencer a necessidade de verificar os resultados. Sempre verifique!
.




