Ciência e Tecnologia

As pessoas estão usando o Super Mario para comparar a IA agora

.

O Pokémon pensou que era uma referência difícil para a IA? Um grupo de pesquisadores argumenta que Super Mario Bros. é ainda mais difícil.

Hao Ai Lab, uma organização de pesquisa da Universidade da Califórnia em San Diego, na sexta -feira jogou a IA nos Jogos ao Live Super Mario Bros. O Claude 3.7 do Anthropic teve o melhor desempenho, seguido por Claude 3.5. O Gemini 1.5 Pro e o Openai do Google lutaram.

Não foi exatamente a mesma versão do Super Mario Bros. que o lançamento original de 1985, para ser claro. O jogo foi executado em um emulador e integrado a uma estrutura, Gamingagentpara dar o controle do AIS sobre Mario.

Super Mario Bros. Ai Benchmark
Créditos da imagem:Hao Lab

Gamingagent, que Hao desenvolveu internamente, alimentou as instruções básicas da IA, como: “Se um obstáculo ou inimigo estiver próximo, mova/salte para a esquerda para Dodge” e capturas de tela do jogo. A IA gerou entradas na forma de código Python para controlar Mario.

Ainda assim, Hao diz que o jogo forçou cada modelo a “aprender” a planejar manobras complexas e a desenvolver estratégias de jogabilidade. Curiosamente, o laboratório descobriu que os chamados modelos de raciocínio como o OpenAI da O1, que “pensam” através de problemas passo a passo para chegar às soluções, tiveram um desempenho pior do que os modelos “não raciocinadores”, apesar de geralmente serem mais fortes na maioria dos benchmarks.

Uma das principais razões pelas quais os modelos de raciocínio têm problemas para jogar jogos em tempo real como esse é que eles demoram um pouco-segundos, geralmente-para decidir sobre ações, segundo os pesquisadores. Em Super Mario Bros., o tempo é tudo. Um segundo pode significar a diferença entre um salto com segurança e uma queda até a morte.

Os jogos têm sido usados ​​para comparar a IA há décadas. Mas Alguns especialistas questionaram a sabedoria de desenhar conexões entre as habilidades de jogo da IA ​​e o avanço tecnológico. Ao contrário do mundo real, os jogos tendem a ser abstratos e relativamente simples, e fornecem uma quantidade teoricamente infinita de dados para treinar a IA.

Os recentes referências chamativas de jogos apontam para o que Andrej Karpathy, um cientista de pesquisa e membro fundador da Openai, chamou de “crise de avaliação”.

“Eu realmente não sei o que [AI] métricas para olhar agora ”, ele escreveu em um Postagem em x. “TLDR Minha reação é que eu realmente não sei como esses modelos são bons agora.”

Pelo menos podemos assistir a AI jogar Mario.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo