.
Os debates sobre os benchmarks de IA – e como eles são relatados pelos laboratórios de IA – estão se lançando na visão do público.
Esta semana, um funcionário do Openai acusado A empresa de AI de Elon Musk, Xai, de publicar resultados enganosos de referência para seu mais recente modelo de IA, Grok 3. Um dos co-fundadores de Xai, Igor Babushkin, insistiu que a empresa estava à direita.
A verdade está em algum lugar no meio.
Em um Postagem no blog de Xaia empresa publicou um gráfico mostrando o desempenho da GROK 3 no AIME 2025, uma coleção de perguntas de matemática desafiadoras de um recente exame de matemática convitacional. Alguns especialistas têm questionou a validade de Aime como uma referência de AI. No entanto, as versões Aime 2025 e mais antigas do teste são comumente usadas para investigar a capacidade matemática de um modelo.
O gráfico de Xai mostrou duas variantes de Grok 3, Grok 3 raciocinando beta e Grok 3 mini raciocínio, vencendo o modelo disponível com melhor desempenho do Openai, O3-mini-altura, no Aime 2025. Mas os funcionários do OpenAI em X foram rápidos em apontar que o gráfico de Xai’s Não incluiu a pontuação Aime 2025 do O3-Mini-High em “Contras@64”.
O que é contras@64, você pode perguntar? Bem, é abreviado para “Consenso@64”, e basicamente fornece um modelo 64 tenta responder a cada problema em uma referência e leva as respostas geradas com mais frequência como as respostas finais. Como você pode imaginar, o Contras@64 tende a aumentar bastante as pontuações de referência dos modelos, e omitir -o de um gráfico pode fazer parecer que um modelo supera outro quando, na realidade, esse não é o caso.
Grok 3 Raciocinando as pontuações da Beta e Grok 3 Mini Raciocinatórios para o Aime 2025 em “@1”-o que significa que a primeira pontuação que os modelos obtiveram na referência-caíram abaixo da pontuação de O3-mini-alta. GROK 3 O raciocínio beta também segue em consonância um modelo O1 do OpenAI para computação “média”. No entanto, Xai é Publicidade Grok 3 Como a “IA mais inteligente do mundo”.
Babushkin argumentou em x Esse OpenAI publicou gráficos de referência de maneira semelhante a enganar no passado – embora os gráficos comparassem o desempenho de seus próprios modelos. Uma festa mais neutra no debate montou um gráfico mais “preciso” mostrando quase todos os modelos de desempenho em contras@64:
Hilariante como algumas pessoas veem minha trama como ataque ao Openai e outras como ataque a Grok enquanto, na realidade, sua propaganda Deepseek
(Na verdade, acredito que Grok parece bom lá, e o TTC Chicanery do OpenAI atrás de O3-Mini-*High*-Pass@”” 1 ″ ”” merece mais escrutínio.) https://t.co/djqljpcjh8 pic.twitter.com/3wh8foufic– Teortaxes ▶ ️ (Deepseek Twitter🐋iron Powder 2023 – ∞) (@teortaxestex) 20 de fevereiro de 2025
Mas como pesquisador de IA Nathan Lambert apontado em um posttalvez a métrica mais importante continue sendo um mistério: o custo computacional (e monetário) necessário para cada modelo alcançar sua melhor pontuação. Isso mostra o quão pouco a maioria dos benchmarks de IA se comunica sobre as limitações dos modelos – e seus pontos fortes.
.








