Ciência e Tecnologia

Esta semana na IA: talvez devêssemos ignorar os benchmarks de IA por enquanto

.

Bem -vindo ao boletim informativo regular da AI da Strong The One! Estamos em hiato um pouco, mas você pode encontrar toda a nossa cobertura de IA, incluindo minhas colunas, nossa análise diária e notícias de última hora, no Strong The One. Se você quiser essas histórias e muito mais em sua caixa de entrada todos os dias, inscreva -se em nossos boletins diários aqui.

Nesta semana, a startup de AI do bilionário Elon Musk, Xai, lançou seu mais recente modelo de IA, Grok 3, que alimenta os aplicativos Grok Chatbot da empresa. Treinado em cerca de 200.000 GPUs, o modelo supera vários outros modelos principais, incluindo do Openai, em benchmarks para matemática, programação e muito mais.

Mas o que esses benchmarks realmente nos dizem?

Aqui na TC, geralmente relatamos com relutância números de referência porque são uma das poucas maneiras (relativamente) padronizadas pela qual a indústria de IA mede as melhorias do modelo. Os benchmarks populares da IA ​​tendem a testar o conhecimento esotérico e fornecer pontuações agregadas que se correlacionam mal à proficiência nas tarefas com as quais a maioria das pessoas se preocupa.

Como o professor Wharton Ethan Mollick apontou em Uma série de postagens em x Após a revelação de Grok 3 na segunda -feira, há uma “necessidade urgente de melhores baterias de testes e autoridades de testes independentes”. As empresas de IA auto-relataram os resultados com mais frequência, como Mollick mencionou, tornando esses resultados ainda mais difíceis de aceitar pelo valor nominal.

“Os benchmarks públicos são ‘meh’ e saturados, deixando muitos testes de IA como críticas de alimentos, com base no sabor”, escreveu Mollick. “Se a IA é fundamental para trabalhar, precisamos de mais.”

Não há escassez de independente testes e organizações Propor novos benchmarks para a IA, mas seu mérito relativo está longe de ser um assunto resolvido dentro do setor. Alguns comentaristas e especialistas da IA ​​propõem Alinhando os benchmarks com impacto econômico para garantir sua utilidade, enquanto outros argumentam que a adoção e a utilidade são os benchmarks finais.

Este debate pode se enfurecer até o fim dos tempos. Talvez devêssemos, em vez disso, Como o usuário do usuário prescrevebasta prestar menos atenção aos novos modelos e benchmarks, exceto os principais avanços técnicos da IA. Para nossa sanidade coletiva, essa pode não ser a pior idéia, mesmo que induza algum nível de IA FOMO.

Como mencionado acima, esta semana na IA está acontecendo hiato. Obrigado por ficar conosco, leitores, através desta montanha -russa de uma jornada. Até a próxima vez.

Notícias

Créditos da imagem:Imagens Nathan Laine / Bloomberg / Getty

Openai tenta “Uncensor” Chatgpt: Max escreveu sobre como o OpenAI está mudando sua abordagem de desenvolvimento de IA para abraçar explicitamente a “liberdade intelectual”, por mais desafiadora ou controversa que seja um tópico.

A nova startup de Mira: A nova startup da ex -CTO da CTO Mira Mira Murati, Laboratório de Máquinas de Pensamentopretende criar ferramentas para “fazer a IA funcionar para [people’s] necessidades e objetivos exclusivos. ”

Grok 3 Cometh: A Startup de AI de Elon Musk, Xai, lançou seu mais recente modelo de IA, Grok 3, e revelou novos recursos para os aplicativos GROK para iOS e a Web.

Uma conferência muito lhama: A Meta sediará sua primeira conferência de desenvolvedor dedicada à IA generativa nesta primavera. Chamado Llamacon após a família de modelos de IA generativa de Meta, a conferência está programada para 29 de abril.

A IA e a soberania digital da Europa: Paul perfilou o OpenEurollm, uma colaboração entre cerca de 20 organizações para construir “uma série de modelos de fundação para IA transparente na Europa” que preserva a “diversidade linguística e cultural” de todos os idiomas da UE.

Documento de pesquisa da semana

O site do OpenAi ChatGPT exibido em uma tela de laptop é visto nesta foto de ilustração.
Créditos da imagem:Imagens Jakub Porzycki / Nurphoto / Getty

Os pesquisadores do OpenAI criaram um novo benchmark de IA, Swe-Lancerque visa avaliar as proezas de codificação de poderosos sistemas de IA. O benchmark consiste em mais de 1.400 tarefas de engenharia de software freelancer que variam de correções de bugs e implantações de recursos a propostas de implementação técnica em nível de “gerente”.

De acordo com o OpenAI, o modelo de IA com melhor desempenho, o Anthropic Claude 3,5 sonetos, obtém 40,3% no benchmark completo do SWE-Lancer-sugerindo que a IA tem um caminho a percorrer. Vale a pena notar que os pesquisadores não compararam modelos mais recentes como o Openi-Mini do Openai ou a empresa de IA chinesa Deepseek R1.

Modelo da semana

Uma empresa de IA chinesa chamada Stepfun lançou um modelo AI “aberto”, Passo audioisso pode entender e gerar fala em vários idiomas. O Step-Audio suporta chinês, inglês e japonês e permite que os usuários ajustem a emoção e até o dialeto do áudio sintético que ele cria, incluindo o canto.

O Stepfun é uma das várias startups de IA chinesas bem financiadas que liberam modelos sob uma licença permissiva. Fundado em 2023, Stepfun supostamente fechado recentemente Uma rodada de financiamento no valor de várias centenas de milhões de dólares de uma série de investidores que incluem empresas de private equity de propriedade estatal chinesa.

Saco de pega

Nous Research Deephers
Créditos da imagem:Nous Research

Nous Research, um grupo de pesquisa de IA, tem lançado O que afirma é um dos primeiros modelos de IA que unifica o raciocínio e “recursos intuitivos do modelo de linguagem”.

O modelo, DeepHermes-3 Preview, pode ativar e desligar longas “cadeias de pensamento” para melhorar a precisão à custa de algum peso computacional. No modo “raciocínio”, a pré-visualização DeepHermes-3, semelhante a outros modelos de IA de raciocínio, “pensa” por mais tempo para problemas mais difíceis e mostra seu processo de pensamento para chegar à resposta.

A Anthrópica planeja lançar um modelo arquitetonicamente semelhante em breve, e o Openai disse que esse modelo está em seu roteiro de curto prazo.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo