A ascensão dos modelos de ‘raciocínio’ da IA está tornando o benchmarking mais caro

Os laboratórios de IA, como o OpenAI, afirmam que seus chamados modelos de IA de “raciocínio”, que podem “pensar” através de problemas passo a passo, são mais capazes do que seus colegas que não são de rendimento em domínios específicos, como a física. Mas, embora isso geralmente pareça ser o caso, os modelos de raciocínio também são muito mais caros de referência, dificultando a verificação independente dessas reivindicações.

De acordo com dados da análise artificial, um equipamento de teste de IA de terceiros, custa US $ 2.767,05 para avaliar o modelo de raciocínio O1 da OpenAI em um conjunto de sete benchmarks populares de IA: MMLU-PRO, GPQA Diamond, Humanity’s Last Exam, Livecodench, Scicode, AIME 2024 e Math-e Math-e Math-e Math-e Math-e Math-e Livecodench.

O recente soneto Claude 3,7 do Antrópico de Benchmarking, um modelo de raciocínio “híbrido”, no mesmo conjunto de testes custa US $ 1.485,35, enquanto testando o O3-mini-altura do OpenAI custou US $ 344,59, por análise artificial.

Alguns modelos de raciocínio são mais baratos para a referência do que outros. A análise artificial gastou US $ 141,22 avaliando o O1-mini do OpenAI, por exemplo. Mas, em média, eles tendem a ser caros. No total, a análise artificial gastou cerca de US $ 5.200 avaliando cerca de uma dúzia de modelos de raciocínio, quase o dobro da quantidade que a empresa gastou analisando mais de 80 modelos não-runacia (US $ 2.400).

O modelo GPT-4O não-raciocínio da OpenAI, lançado em maio de 2024, custa a análise artificial de apenas US $ 108,85 para avaliar, enquanto Claude, 3,6 sonetos-o antecessor não-renomador de Claude 3,7 soneto-custa US $ 81,41.

O co-fundador da Análise Artificial, George Cameron, disse ao Strong The One que a organização planeja aumentar seus gastos com benchmarking à medida que mais laboratórios de IA desenvolvem modelos de raciocínio.

“Na análise artificial, realizamos centenas de avaliações mensalmente e dedicamos um orçamento significativo a isso”, disse Cameron. “Estamos planejando que esse gasto aumente à medida que os modelos são liberados com mais frequência”.

A análise artificial não é a única roupa desse tipo que está lidando com o aumento dos custos de benchmarking da IA.

Ross Taylor, CEO da Startup Geral de AI, disse recentemente que gastou US $ 580 avaliando o Claude 3,7 sonetos em cerca de 3.700 avisos exclusivos. Taylor estima uma única execução do MMLU Pro, um conjunto de perguntas projetado para comparar as habilidades de compreensão de idiomas de um modelo, teria custado mais de US $ 1.800.

“Estamos nos mudando para um mundo onde um laboratório relata x% em uma referência onde eles gastam a quantidade de computação, mas onde os recursos para os acadêmicos são post recentes em X.“[N]o Um será capaz de reproduzir os resultados. ”

Por que os modelos de raciocínio são tão caros para testar? Principalmente porque eles geram muitos tokens. Os tokens representam pedaços de texto bruto, como a palavra “fantástica” dividida nas sílabas “fã”, “tas” e “tic”. De acordo com a análise artificial, o O1 O1 gerou mais de 44 milhões de tokens durante os testes de benchmarking da empresa, cerca de oito vezes o valor gerado por GPT-4O.

A grande maioria das empresas de IA cobra pelo uso do modelo pelo token, para que você possa ver como esse custo pode aumentar.

Os benchmarks modernos também tendem a provocar muitos tokens dos modelos porque contêm perguntas que envolvem tarefas complexas e multi-etapas, de acordo com Jean-Stanislas Denain, pesquisador sênior da Epoch AI, que desenvolve seus próprios benchmarks de modelo.

““[Today’s] benchmarks são mais complexos [even though] O número de perguntas por referência diminuiu em geral “, disse Denain ao Strong The One.” Eles geralmente tentam avaliar a capacidade dos modelos de realizar tarefas do mundo real, como escrever e executar código, navegar na Internet e usar computadores “.

Denain acrescentou que os modelos mais caros ficaram mais caros por token ao longo do tempo. Por exemplo, o Claude 3 Opus da Anthropic foi o modelo mais caro quando foi lançado em maio de 2024, custando US $ 75 por milhão de tokens de produção. O GPT-4.5 e O1-Pro da OpenAI, ambos lançados no início deste ano, custam US $ 150 por milhão de tokens de produção e tokens de produção de US $ 600 por milhão, respectivamente.

““[S]Os modelos do Ince ficaram melhores ao longo do tempo, ainda é verdade que o custo para atingir um determinado nível de desempenho diminuiu bastante com o tempo “, disse Denain.” Mas se você deseja avaliar os melhores maiores modelos a qualquer momento, ainda está pagando mais “.

Muitos laboratórios de IA, incluindo o OpenAI, fornecem organizações de benchmarking gratuitas ou subsidiadas acesso a seus modelos para fins de teste. Mas isso colora os resultados, dizem alguns especialistas – mesmo que não haja evidências de manipulação, a mera sugestão do envolvimento de um laboratório de IA ameaça prejudicar a integridade da pontuação da avaliação.

“De [a] Ponto de vista científico, se você publicar um resultado que ninguém pode se replicar com o mesmo modelo, é mais ciência? ” escreveu Taylor em um Postagem de acompanhamento em x. “(Foi sempre ciência, lol)”.

Etiquetas

Astaabril 11, 2025

0 3 minutos de leitura

Mostrar mais

Ler o Próximo

A ascensão dos modelos de ‘raciocínio’ da IA está tornando o benchmarking mais caro

Asta

Ler o Próximo

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Deixe um comentário Cancelar resposta

Ler o Próximo

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA ​​levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Artigos relacionados

Deixe um comentário Cancelar resposta

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA