Ciência e Tecnologia

Um estudante do ensino médio construiu um site que permite desafiar os modelos de IA para uma construção do Minecraft

.

Como as técnicas convencionais de benchmarking de IA se mostram inadequadas, os construtores de IA estão se voltando para maneiras mais criativas de avaliar as capacidades dos modelos generativos de IA. Para um grupo de desenvolvedores, isso é o Minecraft, o jogo de construção de sandbox de propriedade da Microsoft.

O site Minecraft Benchmark (ou MC-banch) foi desenvolvido em colaboração para colocar os modelos de IA entre si em desafios frente a frente para responder a instruções com as criações do Minecraft. Os usuários podem votar em qual modelo fizeram um trabalho melhor e somente após a votação eles podem ver qual a IA tornou cada construção do Minecraft.

Créditos da imagem:Minecraft Benchmark (abre em uma nova janela)

Para Adi Singh, a 12ª série que iniciou o MC-banch, o valor do Minecraft não é tanto o jogo em si, mas a familiaridade que as pessoas têm com ele-afinal, é o best-seller videogame de todos os tempos. Mesmo para pessoas que não jogaram o jogo, ainda é possível avaliar qual representação em bloco de um abacaxi é melhor realizada.

“O Minecraft permite que as pessoas vejam o progresso [of AI development] Muito mais facilmente ”, disse Singh ao Strong The One.“ As pessoas estão acostumadas a Minecraft, acostumadas com a aparência e a vibração. ”

Atualmente, o MC-Bench lista oito pessoas como colaboradores voluntários. Anthropic, Google, OpenAI e Alibaba subsidiaram o uso de seus produtos pelo projeto para executar instruções de referência, de acordo com o site da MC-Bench, mas as empresas não são afiliadas.

“Atualmente, estamos apenas fazendo construções simples para refletir sobre o quão longe chegamos da era GPT-3, mas [we] podia nos ver escalando para esses planos de formato mais longo e tarefas orientadas a objetivos “, disse Singh.” Os jogos podem ser apenas um meio para testar o raciocínio agêntico que é mais seguro do que na vida real e mais controlável para fins de teste, tornando-o mais ideal aos meus olhos “.

Outros jogos como Pokémon Red, Street Fightere o Pictionary foram usados ​​como benchmarks experimentais para a IA, em parte porque a arte do benchmarking IA é notoriamente complicada.

Os pesquisadores costumam testar modelos de IA em Avaliações padronizadasmas muitos desses testes dão à IA uma vantagem de campo em casa. Devido à maneira como eles são treinados, os modelos são naturalmente talentosos em certos tipos estreitos de solução de problemas, principalmente a solução de problemas que requer memorização rotineira ou extrapolação básica.

Simplificando, é difícil coletar o que significa que o GPT-4 do OpenAI pode marcar no percentil 88 no LSAT, mas não pode discernir quantos Rs estão na palavra “Strawberry”. Antrópico Claude 3,7 soneto alcançou 62,3% de precisão em uma referência padronizada de engenharia de software, mas é pior em jogar Pokémon do que a maioria das crianças de cinco anos.

O MC-Bench é tecnicamente um benchmark de programação, já que os modelos são solicitados a escrever código para criar a compilação solicitada, como “Frosty the Snowman” ou “uma encantadora cabana tropical de praia em uma costa arenosa intocada”.

Mas é mais fácil para a maioria dos usuários de bancada MC avaliar se um boneco de neve parece melhor do que investigar o código, o que oferece ao projeto um apelo mais amplo-e, portanto, o potencial de coletar mais dados sobre quais modelos obtêm uma pontuação melhor consistente.

Se essas pontuações representam muito em termos de utilidade da IA ​​para debate, é claro. Singh afirma que eles são um sinal forte, no entanto.

“A tabela de classificação atual reflete muito de perto minha própria experiência de usar esses modelos, o que é diferente de muitos benchmarks de texto puro”, disse Singh. “Talvez [MC-Bench] Pode ser útil para as empresas para saber se estão indo na direção certa. ”

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo