.
Há apenas alguns meses, a grande aposta de Wall Street na IA generativa teve um momento de acerto de contas quando Deepseek chegou ao local. Apesar de sua natureza fortemente censurada, o Deepseek, de código aberto, provou que um modelo de IA de raciocínio fronteiriço não exige necessariamente bilhões de dólares e pode ser retirado com recursos modestos.
Ele rapidamente encontrou a adoção comercial de gigantes como Huawei, Oppo e Vivo, enquanto Microsoft, Alibaba e Tencent rapidamente deram um lugar em suas plataformas. Agora, o próximo alvo da empresa chinesa é os modelos de IA auto-aprimorados que usam uma abordagem de recompensa juiz para melhorar a si mesma.
Em um artigo pré-impresso (via Bloomberg), os pesquisadores da Universidade de Deepseek e Tsinghua da China descrevem uma nova abordagem que poderia tornar os modelos de IA mais inteligentes e eficientes de uma maneira auto-improvável. A tecnologia subjacente é chamada de ajuste de crítica auto-princípio (SPCT), e a abordagem é tecnicamente conhecida como modelagem generativa de recompensa (GRM).

Nos termos mais simples, é um pouco como criar um loop de feedback em tempo real. Um modelo de IA é fundamentalmente aprimorado, ampliando o tamanho do modelo durante o treinamento. Isso exige muito trabalho humano e recursos de computação. A Deepseek está propondo um sistema em que o “juiz” subjacente vem com seu próprio conjunto de críticas e princípios para um modelo de IA, enquanto prepara uma resposta para consultas do usuário.
Esse conjunto de críticas e princípios é então comparado com as regras estáticas estabelecidas no coração de um modelo de IA e o resultado desejado. Se houver um alto grau de correspondência, um sinal de recompensa será gerado, que efetivamente orienta a IA para ter um desempenho ainda melhor no próximo ciclo.
Os especialistas por trás do artigo estão se referindo à próxima geração de modelos de IA auto-improvisados como Deepseek-GRM. Os benchmarks listados no artigo sugerem que esses modelos têm melhor desempenho do que os modelos Gemini do Google, a lhama da Meta e o Openai GPT-4O. Deepseek diz que esses modelos de IA de última geração serão lançados pelo canal de código aberto.
AI auto-improvante?

O tópico da IA que pode melhorar a si próprio atraiu alguns comentários ambiciosos e controversos. O ex -CEO do Google, Eric Schmidt, argumentou que poderíamos precisar de uma mudança de matança para esses sistemas. “Quando o sistema pode se auto-melhorar, precisamos pensar seriamente em desconectá-lo”, disse Schmidt por Fortuna.
O conceito de IA recursivamente auto-improvante não é exatamente um conceito novo. A idéia de uma máquina ultra-inteligente, que é subsequentemente capaz de fabricar máquinas ainda melhores, na verdade traça até o matemático IJ Good em 1965. Em 2007, o especialista em IA Eliezer Yudkowsky hipotetizou a IA de semente, uma IA “projetada para auto-entendimento, auto-modificação e reversão.
Em 2024, a Sakana AI do Japão detalhou o conceito de um “cientista da IA” sobre um sistema capaz de passar todo o oleoduto de um trabalho de pesquisa do começo ao fim. Em um artigo de pesquisa publicado em março deste ano, os especialistas da Meta revelaram modelos de linguagem auto-recompensa, onde a própria IA atua como juiz para fornecer recompensas durante o treinamento.
Os testes internos da Meta em seu modelo LLAMA 2 AI, usando a nova técnica de auto-recompensa, viram-o superar os rivais como Claude 2 do Anthrópico, o Gemini Pro do Google e os modelos GPT-4 do OpenAI. O antropal apoiado pela Amazon detalhou o que eles chamavam de atração de recompensa, um processo inesperado “onde um modelo modifica diretamente seu próprio mecanismo de recompensa”.
O Google não está muito atrasado na ideia. Em um estudo publicado no The Nature Journal no início deste mês, especialistas do Google DeepMind exibiram um algoritmo de IA chamado Dreamer que pode se auto-melhorar, usando o jogo do Minecraft como um exemplo de exercício.
Especialistas da IBM estão trabalhando em sua própria abordagem chamada treinamento de fechamento dedutivo, onde um modelo de IA usa suas próprias respostas e as avalia em relação aos dados de treinamento para melhorar a si mesma. Toda a premissa, no entanto, não é todo sol e arco -íris.
A pesquisa sugere que, quando os modelos de IA tentam se treinar em dados sintéticos auto-gerados, isso leva a defeitos coloquialmente conhecidos como “colapso do modelo”. Seria interessante ver o quão Deepseek executa a idéia e se ela pode fazê -lo de uma maneira mais frugal do que seus rivais do Ocidente.
.