Ciência e Tecnologia

Um novo teste AGI desafiador toca a maioria dos modelos de IA

.

A Fundação do Prêmio Arc, uma organização sem fins lucrativos co-fundada pelo proeminente pesquisador de IA François Chollet, anunciado em um Postagem do blog Na terça -feira, criou um novo teste desafiador para medir a inteligência geral dos principais modelos de IA.

Até agora, o novo teste, chamado ARC-Agi-2, percorreu a maioria dos modelos.

Modelos de IA de “raciocínio”, como o O1-Pro da OpenAI e a pontuação R1 de Deepseek entre 1% e 1,3% no Arc-Agi-2, de acordo com o Tabela de classificação do prêmio ARC. Modelos poderosos que não são rucros, incluindo GPT-4.5, Claude 3,7 sonetos e Gemini 2.0 Flash, em torno de 1%.

Os testes ARC-AGI consistem em problemas semelhantes ao quebra-cabeça, onde uma IA precisa identificar padrões visuais a partir de uma coleção de quadrados de cores diferentes e gerar a grade “resposta” correta. Os problemas foram projetados para forçar uma IA a se adaptar a novos problemas que ele nunca viu antes.

A Fundação do Prêmio da Arc tinha mais de 400 pessoas tomarem o ARC-Agi-2 para estabelecer uma linha de base humana. Em média, “painéis” dessas pessoas acertaram 60% das perguntas do teste – muito melhor do que qualquer uma das pontuações dos modelos.

Uma pergunta de amostra do Arc-Agi-2 (Crédito: Prêmio ARC).

Em um Postagem em xChollet afirmou que o ARC-Agi-2 é uma medida melhor da inteligência real de um modelo de IA do que a primeira iteração do teste, Arc-agi-1. Os testes da ARC Prize Foundation visam avaliar se um sistema de IA pode adquirir com eficiência novas habilidades fora dos dados em que foi treinado.

Chollet disse que, diferentemente do ARC-AGI-1, o novo teste impede que os modelos de IA confiem na “força bruta”-poder de computação extensa-para encontrar soluções. Chollet reconheceu anteriormente que essa era uma grande falha do ARC-AGI-1.

Para abordar as falhas do primeiro teste, o ARC-Agi-2 apresenta uma nova métrica: eficiência. Também requer modelos para interpretar padrões em tempo real, em vez de confiar na memorização.

“A inteligência não é definida exclusivamente pela capacidade de resolver problemas ou obter pontuações altas”, escreveu Greg Kamradt, co-fundador da Arc Foundation, em um Postagem do blog. “A eficiência com que esses recursos são adquiridos e implantados é um componente crucial e definidor. [the] Habilidade para resolver uma tarefa? ‘ Mas também, ‘a que eficiência ou custo?’ “

O ARC-AGI-1 foi invicto por cerca de cinco anos até dezembro de 2024, quando o OpenAI divulgou seu modelo de raciocínio avançado, a O3, que superou todos os outros modelos de IA e correspondia ao desempenho humano na avaliação. No entanto, como observamos na época, os ganhos de desempenho da O3 no ARC-AGI-1 vieram com um preço alto.

A versão do modelo O3 do OpenAI-O3 (Low)-que foi o primeiro a atingir novos patamares no ARC-AGI-1, com 75,7% no teste, obteve um mísero 4% no ARC-Agi-2 usando US $ 200 em computação por tarefa.

Comparação do desempenho do modelo AI Frontier no ARC-AGI-1 e ARC-AGI-2 (Crédito: Prêmio ARC).

A chegada do ARC-Agi-2 vem como muitos no setor de tecnologia estão pedindo novos benchmarks não saturados para medir o progresso da IA. O co-fundador do abraço do rosto, Thomas Wolf, disse recentemente ao Strong The One que a indústria da IA ​​carece de testes suficientes para medir os principais traços da chamada inteligência geral artificial, incluindo criatividade.

Ao lado da nova referência, anunciou a Fundação do Prêmio Arc Um novo concurso de prêmios ARC 2025desafiar os desenvolvedores a atingirem 85% de precisão no teste ARC-Agi-2, enquanto gasta apenas US $ 0,42 por tarefa.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo