Xai mentiu sobre os benchmarks de Grok 3?

Os debates sobre os benchmarks de IA – e como eles são relatados pelos laboratórios de IA – estão se lançando na visão do público.

Esta semana, um funcionário do Openai acusado A empresa de AI de Elon Musk, Xai, de publicar resultados enganosos de referência para seu mais recente modelo de IA, Grok 3. Um dos co-fundadores de Xai, Igor Babushkin, insistiu que a empresa estava à direita.

A verdade está em algum lugar no meio.

Em um Postagem no blog de Xaia empresa publicou um gráfico mostrando o desempenho da GROK 3 no AIME 2025, uma coleção de perguntas de matemática desafiadoras de um recente exame de matemática convitacional. Alguns especialistas têm questionou a validade de Aime como uma referência de AI. No entanto, as versões Aime 2025 e mais antigas do teste são comumente usadas para investigar a capacidade matemática de um modelo.

O gráfico de Xai mostrou duas variantes de Grok 3, Grok 3 raciocinando beta e Grok 3 mini raciocínio, vencendo o modelo disponível com melhor desempenho do Openai, O3-mini-altura, no Aime 2025. Mas os funcionários do OpenAI em X foram rápidos em apontar que o gráfico de Xai’s Não incluiu a pontuação Aime 2025 do O3-Mini-High em “Contras@64”.

O que é contras@64, você pode perguntar? Bem, é abreviado para “Consenso@64”, e basicamente fornece um modelo 64 tenta responder a cada problema em uma referência e leva as respostas geradas com mais frequência como as respostas finais. Como você pode imaginar, o Contras@64 tende a aumentar bastante as pontuações de referência dos modelos, e omitir -o de um gráfico pode fazer parecer que um modelo supera outro quando, na realidade, esse não é o caso.

Grok 3 Raciocinando as pontuações da Beta e Grok 3 Mini Raciocinatórios para o Aime 2025 em “@1”-o que significa que a primeira pontuação que os modelos obtiveram na referência-caíram abaixo da pontuação de O3-mini-alta. GROK 3 O raciocínio beta também segue em consonância um modelo O1 do OpenAI para computação “média”. No entanto, Xai é Publicidade Grok 3 Como a “IA mais inteligente do mundo”.

Babushkin argumentou em x Esse OpenAI publicou gráficos de referência de maneira semelhante a enganar no passado – embora os gráficos comparassem o desempenho de seus próprios modelos. Uma festa mais neutra no debate montou um gráfico mais “preciso” mostrando quase todos os modelos de desempenho em contras@64:

Hilariante como algumas pessoas veem minha trama como ataque ao Openai e outras como ataque a Grok enquanto, na realidade, sua propaganda Deepseek
(Na verdade, acredito que Grok parece bom lá, e o TTC Chicanery do OpenAI atrás de O3-Mini-*High*-Pass@”” 1 ″ ”” merece mais escrutínio.) https://t.co/djqljpcjh8 pic.twitter.com/3wh8foufic

– Teortaxes ▶ ️ (Deepseek Twitter🐋iron Powder 2023 – ∞) (@teortaxestex) 20 de fevereiro de 2025

Mas como pesquisador de IA Nathan Lambert apontado em um posttalvez a métrica mais importante continue sendo um mistério: o custo computacional (e monetário) necessário para cada modelo alcançar sua melhor pontuação. Isso mostra o quão pouco a maioria dos benchmarks de IA se comunica sobre as limitações dos modelos – e seus pontos fortes.

Etiquetas

Astafevereiro 22, 2025

0 2 minutos de leitura

Mostrar mais

Ler o Próximo

Xai mentiu sobre os benchmarks de Grok 3?

Asta

Ler o Próximo

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Deixe um comentário Cancelar resposta

Ler o Próximo

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA ​​levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Artigos relacionados

Deixe um comentário Cancelar resposta

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA