.
Os pesquisadores descobriram uma nova “lei de escala” da IA? É isso algum zumbido nas mídias sociais sugere – mas os especialistas são céticos.
As leis de escala de IA, um conceito informal, descrevem como o desempenho dos modelos de IA melhora à medida que o tamanho dos conjuntos de dados e os recursos de computação usados para treiná -los aumenta. Até cerca de um ano atrás, aumentar o “pré-treinamento”-treinando modelos cada vez mais graves em conjuntos de dados cada vez maiores-era de longe a lei dominante, pelo menos no sentido de que a maioria dos laboratórios de IA da fronteira a abraçava.
O pré-treinamento não desapareceu, mas duas leis adicionais de escala, o escalonamento pós-treinamento e a escala no tempo de teste, surgiram para complementá-lo. A escala pós-treinamento está essencialmente ajustando o comportamento de um modelo, enquanto a escala de tempo de teste implica aplicar mais computação à inferência-ou seja, modelos de execução-para direcionar uma forma de “raciocínio” (veja: modelos como R1).
Os pesquisadores do Google e da UC Berkeley propuseram recentemente em um papel O que alguns comentaristas online descreveram como uma quarta lei: “Pesquisa em tempo de inferência”.
A pesquisa em tempo de inferência tem um modelo gerar muitas respostas possíveis para uma consulta em paralelo e, em seguida, selecione o “melhor” do grupo. Os pesquisadores afirmam que pode aumentar o desempenho de um modelo de um ano, como o Gemini 1.5 Pro do Google, a um nível que ultrapassa o modelo de “raciocínio” da previsão O1 da OpenAI em benchmarks de ciência e matemática.
Nosso artigo se concentra neste eixo de pesquisa e em suas tendências de escala. Por exemplo, apenas amostrando aleatoriamente 200 respostas e auto-verificador, Gemini 1.5 (um antigo modelo de 2024!) Bate o O1-Preview e se aproxima de O1. Isso é sem verificadores de verdade, RL ou de verdade. pic.twitter.com/hb5fo7ifnh
– Eric Zhao (@ericzhao28) 17 de março de 2025
““[B]Y apenas amostrando aleatoriamente 200 respostas e auto-verificador, Gemini 1.5-um antigo modelo de 2024-vence a previsão de O1 e se aproxima da O1 ”, Eric Zhao, pesquisador de doutorado do Google e um dos co-autores do artigo, escreveu em um série de postagens em x. “A mágica é que a auto-verificação naturalmente se torna mais fácil em escala! Você esperaria que escolher uma solução correta se torne mais difícil quanto maior o seu conjunto de soluções, mas o oposto é o caso!”
Vários especialistas dizem que os resultados não são surpreendentes, no entanto, e que a pesquisa em tempo de inferência pode não ser útil em muitos cenários.
Matthew Guzdial, pesquisador de IA e professor assistente da Universidade de Alberta, disse ao Strong The One que a abordagem funciona melhor quando há uma boa “função de avaliação” – em outras palavras, quando a melhor resposta para uma pergunta pode ser facilmente verificada. Mas a maioria das consultas não é tão cortada e secar.
““[I]f não podemos escrever código para definir o que queremos, não podemos usar [inference-time] Pesquise ”, disse ele. […] Geralmente, não é uma ótima abordagem para realmente resolver a maioria dos problemas. ”
Mike Cook, pesquisador do King’s College London, especializado em IA, concordou com a avaliação da Guzdial, acrescentando que destaca a lacuna entre o “raciocínio” no sentido da palavra da palavra e nossos próprios processos de pensamento.
““[Inference-time search] Não eleva o processo de raciocínio do modelo “, disse Cook.”[I]é apenas uma maneira de trabalharmos em torno das limitações de uma tecnologia propensa a cometer erros com muito confiança suportados […] Intuitivamente, se o seu modelo cometer um erro 5% do tempo, verificando 200 tentativas no mesmo problema deve facilitar a localização desses erros. ”
Essa pesquisa no tempo de inferência pode ter limitações certamente será notícias indesejadas para um setor de IA que deseja ampliar o modelo de “raciocínio” com eficiência. Como co-autores da nota de papel, os modelos de raciocínio hoje podem acumular milhares de dólares em computação em um único problema de matemática.
Parece que a busca por novas técnicas de escala continuará.
.







