Ciência e Tecnologia

Xai mentiu sobre os benchmarks de Grok 3?

.

Os debates sobre os benchmarks de IA – e como eles são relatados pelos laboratórios de IA – estão se lançando na visão do público.

Esta semana, um funcionário do Openai acusado A empresa de AI de Elon Musk, Xai, de publicar resultados enganosos de referência para seu mais recente modelo de IA, Grok 3. Um dos co-fundadores de Xai, Igor Babushkin, insistiu que a empresa estava à direita.

A verdade está em algum lugar no meio.

Em um Postagem no blog de Xaia empresa publicou um gráfico mostrando o desempenho da GROK 3 no AIME 2025, uma coleção de perguntas de matemática desafiadoras de um recente exame de matemática convitacional. Alguns especialistas têm questionou a validade de Aime como uma referência de AI. No entanto, as versões Aime 2025 e mais antigas do teste são comumente usadas para investigar a capacidade matemática de um modelo.

O gráfico de Xai mostrou duas variantes de Grok 3, Grok 3 raciocinando beta e Grok 3 mini raciocínio, vencendo o modelo disponível com melhor desempenho do Openai, O3-mini-altura, no Aime 2025. Mas os funcionários do OpenAI em X foram rápidos em apontar que o gráfico de Xai’s Não incluiu a pontuação Aime 2025 do O3-Mini-High em “Contras@64”.

O que é contras@64, você pode perguntar? Bem, é abreviado para “Consenso@64”, e basicamente fornece um modelo 64 tenta responder a cada problema em uma referência e leva as respostas geradas com mais frequência como as respostas finais. Como você pode imaginar, o Contras@64 tende a aumentar bastante as pontuações de referência dos modelos, e omitir -o de um gráfico pode fazer parecer que um modelo supera outro quando, na realidade, esse não é o caso.

Grok 3 Raciocinando as pontuações da Beta e Grok 3 Mini Raciocinatórios para o Aime 2025 em “@1”-o que significa que a primeira pontuação que os modelos obtiveram na referência-caíram abaixo da pontuação de O3-mini-alta. GROK 3 O raciocínio beta também segue em consonância um modelo O1 do OpenAI para computação “média”. No entanto, Xai é Publicidade Grok 3 Como a “IA mais inteligente do mundo”.

Babushkin argumentou em x Esse OpenAI publicou gráficos de referência de maneira semelhante a enganar no passado – embora os gráficos comparassem o desempenho de seus próprios modelos. Uma festa mais neutra no debate montou um gráfico mais “preciso” mostrando quase todos os modelos de desempenho em contras@64:

Mas como pesquisador de IA Nathan Lambert apontado em um posttalvez a métrica mais importante continue sendo um mistério: o custo computacional (e monetário) necessário para cada modelo alcançar sua melhor pontuação. Isso mostra o quão pouco a maioria dos benchmarks de IA se comunica sobre as limitações dos modelos – e seus pontos fortes.



.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo