.
Microsoft na quarta -feira Lançou vários novos modelos de IA “abertos”o mais capaz dos quais é competitivo com o O3-mini do Openai em pelo menos um benchmark.
Como diz no estanho, todos os novos modelos permissivamente licenciados-Phi 4 mini raciocínio, raciocínio Phi 4 e raciocínio Phi 4 Plus-são modelos de “raciocínio”, o que significa que eles podem gastar mais soluções de verificação de fatos para problemas complexos. Eles expandem a família Phi “Small Model” da Microsoft, que a empresa lançou há um ano para oferecer uma base para os desenvolvedores de IA que construíram aplicativos no limite.
O mini -raciocínio PHI 4 foi treinado em aproximadamente 1 milhão de problemas de matemática sintética gerados pelo modelo de raciocínio R1 da startup de IA chinês. Cerca de 3,8 bilhões de parâmetros de tamanho, o Phi 4 Mini Raciocining foi projetado para aplicações educacionais, diz a Microsoft, como “tutoria incorporada” em dispositivos leves.
Os parâmetros correspondem aproximadamente às habilidades de solução de problemas de um modelo, e os modelos com mais parâmetros geralmente têm um desempenho melhor do que aqueles com menos parâmetros.
O raciocínio Phi 4, um modelo de 14 bilhões de parâmetros, foi treinado usando dados da Web de “alta qualidade”, além de “demonstrações com curadoria” da mencionada O3-mini do OpenAI. É melhor para aplicativos de matemática, ciências e codificação, de acordo com a Microsoft.
Quanto ao Raciocinamento Phi 4, é o modelo PHI 4 anteriormente lançado pela Microsoft adaptado a um modelo de raciocínio para obter uma melhor precisão para tarefas específicas. A Microsoft afirma que o Phi 4 Raciacing Plus aborda os níveis de desempenho do Deepseek R1, que possui significativamente mais parâmetros (671 bilhões). O benchmarking interno da empresa também possui o raciocínio Phi 4, além de combinar O3-mini no Omnimath, um teste de habilidades matemáticas.
Phi 4 mini raciocínio, raciocínio Phi 4, Phi 4 Raciacing Plus e seus relatórios técnicos detalhados, estão disponíveis no Ai dev plataforma abraçando o rosto.
Evento do Strong The One
Berkeley, CA.
|
5 de junho
Reserve agora
“Usando destilação, aprendizado de reforço e dados de alta qualidade, estes [new] Modelos balançam tamanho e desempenho ”, escreveu a Microsoft em um Postagem do blog. “Eles são pequenos o suficiente para ambientes de baixa latência, mas mantêm fortes recursos de raciocínio que rivalizam com modelos muito maiores. Essa mistura permite que até dispositivos limitados por recursos executem tarefas de raciocínio complexas com eficiência”.
.








