.
O que você precisa saber
- Modelos de inteligência artificial têm um problema de precisão, mas modelos que podem processar documentos e informações são supostamente mais confiáveis.
- Gemini 1.5 Pro e Gemini 1.5 Flash, dois dos melhores modelos de IA do Google, têm janelas de contexto expandidas que permitem processar e analisar mais dados.
- No entanto, dois novos estudos descobriram que os geminianos não são tão bons em analisar dados.
Os modelos de inteligência artificial mais recentes do Google podem aceitar mais dados de contexto do que qualquer outra solução convencional disponível, mas novos estudos estão questionando sua eficácia. Conforme relatado pelo TechCrunch, embora o Gemini 1.5 Pro e o Gemini 1.5 Flash possam tecnicamente processar dados em grandes janelas de contexto, eles podem não ser capazes de entendê-los.
Um estudo descobriu que um “conjunto diversificado de [vision language models] Os VLMs perdem desempenho rapidamente conforme o comprimento do contexto visual cresce”, incluindo Gemini. Outro estudo revelou que “nenhum modelo de peso aberto tem desempenho acima da chance aleatória”.
“Embora modelos como o Gemini 1.5 Pro possam processar tecnicamente contextos longos, vimos muitos casos indicando que os modelos não ‘entendem’ realmente o conteúdo”, explicou Marzena Karpinska, pós-doutoranda no grupo de processamento de linguagem natural da UMass Amherst e uma das coautoras do estudo, ao TechCrunch.
Grandes modelos de linguagem são informados por dados de treinamento que permitem que eles respondam a certas perguntas sem nenhum material adicional. No entanto, uma função-chave dos modelos de IA é a capacidade de processar novos dados para processar prompts. Por exemplo, o Gemini poderia usar um PDF, um vídeo ou uma tela de telefone Android para obter contexto adicional. Todos esses dados, mais seu conjunto de dados embutido, poderiam ser usados para responder a prompts.
Uma janela de contexto é uma métrica que quantifica quantos dados novos um LLM pode processar. Gemini 1.5 Pro e Gemini 1.5 Flash têm algumas das janelas de contexto mais amplas de qualquer modelo de IA no mercado. A versão padrão do Gemini 1.5 Pro começou com uma janela de contexto de 128.000 tokens, com alguns desenvolvedores conseguindo acessar uma janela de contexto de 1 milhão de tokens.
Então, no Google I/O 2024, a empresa revelou que o Gemini 1.5 Pro e o 1.5 Flash estariam amplamente disponíveis com a janela de contexto de token maior de 1 milhão. Para desenvolvedores selecionados do Google AI Studio e Vertex AI, o Gemini 1.5 Pro estava disponível com uma janela de contexto de token de 2 milhões. Para referência, um “token” é uma pequena parte dos dados. O Google diz que sua janela de contexto de token de 2 milhões equivale a aproximadamente duas horas de vídeo, 22 horas de áudio ou 1,4 milhão de palavras.
O Google mostrou essas janelas de contexto expandidas em demonstrações pré-gravadas. No entanto, agora que o modelo Gemini 1.5 Pro está nas mãos de pesquisadores, estamos começando a aprender suas limitações.
O que os estudos descobriram

Karpinska e os outros coautores do estudo notaram que a maioria dos LLMs tem um bom desempenho em testes de “agulha no palheiro”. Essas situações exigem que os modelos de IA simplesmente encontrem e recuperem informações que podem estar espalhadas pelo material de origem. No entanto, as informações geralmente são confinadas a uma ou duas frases. Quando um modelo de IA é encarregado de processar informações como parte de uma grande janela de contexto e entendê-las completamente, há muito mais espaço para erros.
O NoCha foi criado para testar o desempenho do Gemini e de outros modelos de IA nessas situações. Os pesquisadores descrevem o NoCha como “um conjunto de dados de 1.001 pares minimamente diferentes de afirmações verdadeiras e falsas sobre 67 livros de ficção em inglês publicados recentemente, escritos por leitores humanos desses livros”. A atualidade desses livros é importante, pois o objetivo do teste é avaliar a capacidade dos modelos de processar novas informações — não informações aprendidas por meio de materiais de treinamento anteriores.
“Em contraste com os benchmarks de contexto longo existentes, nossos anotadores confirmam que a maior parcela de pares no NoCha requer raciocínio global sobre todo o livro para verificar”, escrevem os pesquisadores. “Nossos experimentos mostram que, embora leitores humanos realizem essa tarefa facilmente, é enormemente desafiador para todos os dez LLMs de contexto longo que avaliamos: nenhum modelo de peso aberto tem desempenho acima da chance aleatória (apesar de seu forte desempenho em benchmarks sintéticos), enquanto o GPT-4o atinge a maior precisão em 55,8%.”
Nenhum dos LLMs tem um bom desempenho no NoCha (mas os humanos têm!
), com todos os modelos de pesos abertos tendo um desempenho abaixo do aleatório
Embora #Claude-3.5-Sonnet supostamente brilhe em outras áreas, ele fica atrás de #GPT-4o, #Claude-3-Opus e #Gemini Pro 1.5 no NoCha. pic.twitter.com/5LF03DsseX25 de junho de 2024
Especificamente, o Gemini 1.5 Pro pontuou 48,1% no teste. O Gemini 1.5 Flash ficou atrás com 34,2%. Ambos os modelos de IA do Google tiveram desempenho pior do que os melhores modelos OpenAI e Claude, apesar da vantagem da janela de contexto do Gemini. Em outras palavras, teria sido melhor adivinhar do que usar as respostas do Gemini 1.5 Pro ou Gemini 1.5 Flash para o teste NoCha.
É importante notar que os humanos pontuaram 97% no teste NoCha, o que supera qualquer um dos LLMs testados.
O que isso significa para Gêmeos?

Gemini pareceu ter um desempenho abaixo das expectativas, mas não é completamente inútil. Os modelos ainda são úteis para escanear grandes faixas de dados e encontrar a resposta para uma pergunta específica, especialmente quando ela está confinada a uma única frase. No entanto, não ajudará você a encontrar temas, tramas ou conclusões gerais que exijam que ele consuma e entenda dados em larga escala.
Devido às alegações elevadas que o Google fez para o Gemini, isso pode ser decepcionante. O Android Central entrou em contato com o Google sobre esses estudos fora do horário normal de trabalho, e eles não nos retornaram a tempo para publicação. Atualizaremos o artigo assim que tivermos mais informações.
Por enquanto, esses estudos apenas mostram que a inteligência artificial — por mais impressionante que pareça — ainda tem um longo caminho a percorrer antes que possa usurpar o raciocínio humano. Modelos de IA como Gemini podem ser mais rápidos no processamento de dados do que os humanos, mas raramente são mais precisos.
.





Nenhum dos LLMs tem um bom desempenho no NoCha (mas os humanos têm!
), com todos os modelos de pesos abertos tendo um desempenho abaixo do aleatório
Embora #Claude-3.5-Sonnet supostamente brilhe em outras áreas, ele fica atrás de #GPT-4o, #Claude-3-Opus e #Gemini Pro 1.5 no NoCha. pic.twitter.com/5LF03DsseX


