Os pesquisadores dizem que descobriram um novo método de ‘dimensionar’ ai, mas há motivos para ser cético

Os pesquisadores descobriram uma nova “lei de escala” da IA? É isso algum zumbido nas mídias sociais sugere – mas os especialistas são céticos.

As leis de escala de IA, um conceito informal, descrevem como o desempenho dos modelos de IA melhora à medida que o tamanho dos conjuntos de dados e os recursos de computação usados para treiná -los aumenta. Até cerca de um ano atrás, aumentar o “pré-treinamento”-treinando modelos cada vez mais graves em conjuntos de dados cada vez maiores-era de longe a lei dominante, pelo menos no sentido de que a maioria dos laboratórios de IA da fronteira a abraçava.

O pré-treinamento não desapareceu, mas duas leis adicionais de escala, o escalonamento pós-treinamento e a escala no tempo de teste, surgiram para complementá-lo. A escala pós-treinamento está essencialmente ajustando o comportamento de um modelo, enquanto a escala de tempo de teste implica aplicar mais computação à inferência-ou seja, modelos de execução-para direcionar uma forma de “raciocínio” (veja: modelos como R1).

Os pesquisadores do Google e da UC Berkeley propuseram recentemente em um papel O que alguns comentaristas online descreveram como uma quarta lei: “Pesquisa em tempo de inferência”.

A pesquisa em tempo de inferência tem um modelo gerar muitas respostas possíveis para uma consulta em paralelo e, em seguida, selecione o “melhor” do grupo. Os pesquisadores afirmam que pode aumentar o desempenho de um modelo de um ano, como o Gemini 1.5 Pro do Google, a um nível que ultrapassa o modelo de “raciocínio” da previsão O1 da OpenAI em benchmarks de ciência e matemática.

Nosso artigo se concentra neste eixo de pesquisa e em suas tendências de escala. Por exemplo, apenas amostrando aleatoriamente 200 respostas e auto-verificador, Gemini 1.5 (um antigo modelo de 2024!) Bate o O1-Preview e se aproxima de O1. Isso é sem verificadores de verdade, RL ou de verdade. pic.twitter.com/hb5fo7ifnh

– Eric Zhao (@ericzhao28) 17 de março de 2025

““[B]Y apenas amostrando aleatoriamente 200 respostas e auto-verificador, Gemini 1.5-um antigo modelo de 2024-vence a previsão de O1 e se aproxima da O1 ”, Eric Zhao, pesquisador de doutorado do Google e um dos co-autores do artigo, escreveu em um série de postagens em x. “A mágica é que a auto-verificação naturalmente se torna mais fácil em escala! Você esperaria que escolher uma solução correta se torne mais difícil quanto maior o seu conjunto de soluções, mas o oposto é o caso!”

Vários especialistas dizem que os resultados não são surpreendentes, no entanto, e que a pesquisa em tempo de inferência pode não ser útil em muitos cenários.

Matthew Guzdial, pesquisador de IA e professor assistente da Universidade de Alberta, disse ao Strong The One que a abordagem funciona melhor quando há uma boa “função de avaliação” – em outras palavras, quando a melhor resposta para uma pergunta pode ser facilmente verificada. Mas a maioria das consultas não é tão cortada e secar.

““[I]f não podemos escrever código para definir o que queremos, não podemos usar [inference-time] Pesquise ”, disse ele. […] Geralmente, não é uma ótima abordagem para realmente resolver a maioria dos problemas. ”

Mike Cook, pesquisador do King’s College London, especializado em IA, concordou com a avaliação da Guzdial, acrescentando que destaca a lacuna entre o “raciocínio” no sentido da palavra da palavra e nossos próprios processos de pensamento.

““[Inference-time search] Não eleva o processo de raciocínio do modelo “, disse Cook.”[I]é apenas uma maneira de trabalharmos em torno das limitações de uma tecnologia propensa a cometer erros com muito confiança suportados […] Intuitivamente, se o seu modelo cometer um erro 5% do tempo, verificando 200 tentativas no mesmo problema deve facilitar a localização desses erros. ”

Essa pesquisa no tempo de inferência pode ter limitações certamente será notícias indesejadas para um setor de IA que deseja ampliar o modelo de “raciocínio” com eficiência. Como co-autores da nota de papel, os modelos de raciocínio hoje podem acumular milhares de dólares em computação em um único problema de matemática.

Parece que a busca por novas técnicas de escala continuará.

Etiquetas

Astamarço 19, 2025

0 3 minutos de leitura

Mostrar mais

Ler o Próximo

Os pesquisadores dizem que descobriram um novo método de ‘dimensionar’ ai, mas há motivos para ser cético

Asta

Ler o Próximo

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Deixe um comentário Cancelar resposta

Ler o Próximo

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA ​​levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Artigos relacionados

Deixe um comentário Cancelar resposta

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA