.
Pesquisadores de IA da Stanford e da Universidade de Washington conseguiram treinar um modelo de “raciocínio” da IA por menos de US $ 50 em créditos de computação em nuvem, de acordo com um novo Trabalho de pesquisa lançado na última sexta -feira.
O modelo conhecido como S1 tem um desempenho semelhante aos modelos de raciocínio de ponta, como o Open O1 e o Deepseek, em testes que medem as habilidades de matemática e codificação. O modelo S1 é Disponível no GitHubjuntamente com os dados e o código usados para treiná -los.
A equipe por trás da S1 disse que começou com um modelo básico pronta para uso e, em seguida, ajustou-o por destilação, um processo para extrair os recursos de “raciocínio” de outro modelo de IA treinando suas respostas. Os pesquisadores disseram que o S1 é destilado de um dos modelos de raciocínio do Google, o Gemini 2.0 Flash Thinking Experimental. A destilação é a mesma abordagem que os pesquisadores de Berkeley usavam para criar um modelo de raciocínio de IA por cerca de US $ 450 no mês passado.
Para alguns, a idéia de que alguns pesquisadores sem milhões de dólares atrás deles ainda podem inovar no espaço da IA é emocionante. Mas o S1 levanta questões reais sobre a mercantilização dos modelos de IA. Onde está o fosso se alguém pode replicar de perto um modelo de vários milhões de dólares com troca relativa de bolso?
Sem surpresa, os grandes laboratórios de IA não estão felizes. O OpenAI acusou Deepseek de colher dados incorretamente de sua API para fins de Modelo Destilação.
Os pesquisadores por trás do S1 estavam procurando encontrar a abordagem mais simples para alcançar um forte desempenho de raciocínio e “escala no tempo de teste”, ou permitindo que um modelo de IA pense mais antes de responder a uma pergunta. Estes foram alguns dos avanços no O1 O1, que Deepseek e outros laboratórios de IA tentaram replicar através de várias técnicas.
O artigo S1 sugere que os modelos de raciocínio podem ser destilados com um conjunto de dados relativamente pequeno usando um processo chamado ajuste fino supervisionado (SFT), no qual um modelo de IA é explicitamente instruído a imitar certos comportamentos em um conjunto de dados. A SFT tende a ser mais barata que o método de aprendizado de reforço em larga escala que a DeepSeek empregou para treinar sua resposta ao OpenAi, do Openai, R1.
O Google oferece acesso gratuito ao Gemini 2.0 Flash Thinking Experimental, embora com limites diários de taxas, por meio de sua plataforma do Google AI Studio. Seus termos proíbem a engenharia reversa de seus modelos de desenvolver serviços que competem com as próprias ofertas de IA do Google, no entanto. Entramos em contato com o Google para comentar.
O S1 é baseado em um pequeno modelo de IA pronta para uso da AI de propriedade da Alibaba, QWEN, que está disponível para download gratuitamente. Para treinar S1, os pesquisadores criaram um conjunto de dados de apenas 1.000 perguntas cuidadosamente selecionadas, emparelhadas com respostas a essas perguntas, bem como o processo de “pensamento” por trás de cada resposta do Gemini 2.0 pensamento flash do Google experimental.
Após o treinamento do S1, que levou menos de 30 minutos usando 16 GPUs NVIDIA H100, o S1 alcançou um forte desempenho em certos benchmarks de IA, de acordo com os pesquisadores. Niklas Muennighff, pesquisador de Stanford que trabalhou no projeto, disse ao Strong The One que poderia alugar a computação necessária hoje por cerca de US $ 20.
Os pesquisadores usaram um truque bacana para fazer com que o S1 verifique seu trabalho e estenda seu tempo de “pensamento”: disseram para esperar. Adicionar a palavra “Espere” durante o raciocínio de S1 ajudou o modelo a chegar a respostas um pouco mais precisas, de acordo com o papel.
Em 2025, Meta, Google e Microsoft Planeje investir centenas de bilhões de dólares em infraestrutura de IAque irá parcialmente para o treinamento dos modelos de IA de próxima geração. Esse nível de investimento ainda pode ser necessário para impulsionar o envelope da inovação da IA. A destilação demonstrou ser um bom método para recriar barato os recursos de um modelo de IA, mas não cria novos modelos de IA muito melhor do que o que está disponível hoje.
.