Esta semana na IA: talvez devêssemos ignorar os benchmarks de IA por enquanto

Bem -vindo ao boletim informativo regular da AI da Strong The One! Estamos em hiato um pouco, mas você pode encontrar toda a nossa cobertura de IA, incluindo minhas colunas, nossa análise diária e notícias de última hora, no Strong The One. Se você quiser essas histórias e muito mais em sua caixa de entrada todos os dias, inscreva -se em nossos boletins diários aqui.

Nesta semana, a startup de AI do bilionário Elon Musk, Xai, lançou seu mais recente modelo de IA, Grok 3, que alimenta os aplicativos Grok Chatbot da empresa. Treinado em cerca de 200.000 GPUs, o modelo supera vários outros modelos principais, incluindo do Openai, em benchmarks para matemática, programação e muito mais.

Mas o que esses benchmarks realmente nos dizem?

Aqui na TC, geralmente relatamos com relutância números de referência porque são uma das poucas maneiras (relativamente) padronizadas pela qual a indústria de IA mede as melhorias do modelo. Os benchmarks populares da IA tendem a testar o conhecimento esotérico e fornecer pontuações agregadas que se correlacionam mal à proficiência nas tarefas com as quais a maioria das pessoas se preocupa.

Como o professor Wharton Ethan Mollick apontou em Uma série de postagens em x Após a revelação de Grok 3 na segunda -feira, há uma “necessidade urgente de melhores baterias de testes e autoridades de testes independentes”. As empresas de IA auto-relataram os resultados com mais frequência, como Mollick mencionou, tornando esses resultados ainda mais difíceis de aceitar pelo valor nominal.

“Os benchmarks públicos são ‘meh’ e saturados, deixando muitos testes de IA como críticas de alimentos, com base no sabor”, escreveu Mollick. “Se a IA é fundamental para trabalhar, precisamos de mais.”

Não há escassez de independente testes e organizações Propor novos benchmarks para a IA, mas seu mérito relativo está longe de ser um assunto resolvido dentro do setor. Alguns comentaristas e especialistas da IA propõem Alinhando os benchmarks com impacto econômico para garantir sua utilidade, enquanto outros argumentam que a adoção e a utilidade são os benchmarks finais.

Este debate pode se enfurecer até o fim dos tempos. Talvez devêssemos, em vez disso, Como o usuário do usuário prescrevebasta prestar menos atenção aos novos modelos e benchmarks, exceto os principais avanços técnicos da IA. Para nossa sanidade coletiva, essa pode não ser a pior idéia, mesmo que induza algum nível de IA FOMO.

Como mencionado acima, esta semana na IA está acontecendo hiato. Obrigado por ficar conosco, leitores, através desta montanha -russa de uma jornada. Até a próxima vez.

Notícias

**Créditos da imagem:**Imagens Nathan Laine / Bloomberg / Getty

Openai tenta “Uncensor” Chatgpt: Max escreveu sobre como o OpenAI está mudando sua abordagem de desenvolvimento de IA para abraçar explicitamente a “liberdade intelectual”, por mais desafiadora ou controversa que seja um tópico.

A nova startup de Mira: A nova startup da ex -CTO da CTO Mira Mira Murati, Laboratório de Máquinas de Pensamentopretende criar ferramentas para “fazer a IA funcionar para [people’s] necessidades e objetivos exclusivos. ”

Grok 3 Cometh: A Startup de AI de Elon Musk, Xai, lançou seu mais recente modelo de IA, Grok 3, e revelou novos recursos para os aplicativos GROK para iOS e a Web.

Uma conferência muito lhama: A Meta sediará sua primeira conferência de desenvolvedor dedicada à IA generativa nesta primavera. Chamado Llamacon após a família de modelos de IA generativa de Meta, a conferência está programada para 29 de abril.

A IA e a soberania digital da Europa: Paul perfilou o OpenEurollm, uma colaboração entre cerca de 20 organizações para construir “uma série de modelos de fundação para IA transparente na Europa” que preserva a “diversidade linguística e cultural” de todos os idiomas da UE.

Documento de pesquisa da semana

O site do OpenAi ChatGPT exibido em uma tela de laptop é visto nesta foto de ilustração. — **Créditos da imagem:**Imagens Jakub Porzycki / Nurphoto / Getty

Os pesquisadores do OpenAI criaram um novo benchmark de IA, Swe-Lancerque visa avaliar as proezas de codificação de poderosos sistemas de IA. O benchmark consiste em mais de 1.400 tarefas de engenharia de software freelancer que variam de correções de bugs e implantações de recursos a propostas de implementação técnica em nível de “gerente”.

De acordo com o OpenAI, o modelo de IA com melhor desempenho, o Anthropic Claude 3,5 sonetos, obtém 40,3% no benchmark completo do SWE-Lancer-sugerindo que a IA tem um caminho a percorrer. Vale a pena notar que os pesquisadores não compararam modelos mais recentes como o Openi-Mini do Openai ou a empresa de IA chinesa Deepseek R1.

Modelo da semana

Uma empresa de IA chinesa chamada Stepfun lançou um modelo AI “aberto”, Passo audioisso pode entender e gerar fala em vários idiomas. O Step-Audio suporta chinês, inglês e japonês e permite que os usuários ajustem a emoção e até o dialeto do áudio sintético que ele cria, incluindo o canto.

O Stepfun é uma das várias startups de IA chinesas bem financiadas que liberam modelos sob uma licença permissiva. Fundado em 2023, Stepfun supostamente fechado recentemente Uma rodada de financiamento no valor de várias centenas de milhões de dólares de uma série de investidores que incluem empresas de private equity de propriedade estatal chinesa.

Saco de pega

Nous Research Deephers — **Créditos da imagem:**Nous Research

Nous Research, um grupo de pesquisa de IA, tem lançado O que afirma é um dos primeiros modelos de IA que unifica o raciocínio e “recursos intuitivos do modelo de linguagem”.

O modelo, DeepHermes-3 Preview, pode ativar e desligar longas “cadeias de pensamento” para melhorar a precisão à custa de algum peso computacional. No modo “raciocínio”, a pré-visualização DeepHermes-3, semelhante a outros modelos de IA de raciocínio, “pensa” por mais tempo para problemas mais difíceis e mostra seu processo de pensamento para chegar à resposta.

A Anthrópica planeja lançar um modelo arquitetonicamente semelhante em breve, e o Openai disse que esse modelo está em seu roteiro de curto prazo.

Etiquetas

Astafevereiro 19, 2025

0 4 minutos de leitura

Mostrar mais

Ler o Próximo

Esta semana na IA: talvez devêssemos ignorar os benchmarks de IA por enquanto

Notícias

Documento de pesquisa da semana

Modelo da semana

Saco de pega

Asta

Ler o Próximo

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Deixe um comentário Cancelar resposta

Notícias

Documento de pesquisa da semana

Modelo da semana

Saco de pega

Ler o Próximo

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA ​​levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Artigos relacionados

Deixe um comentário Cancelar resposta

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA