Estudos/Pesquisa

Novo sistema pode ensinar um grupo de agentes de IA cooperativos ou competitivos a encontrar uma solução ideal de longo prazo – Strong The One

.

Imagine dois times se enfrentando em um campo de futebol. Os jogadores podem cooperar para atingir um objetivo e competir contra outros jogadores com interesses conflitantes. É assim que o jogo funciona.

Criar agentes de inteligência artificial que possam aprender a competir e cooperar de forma tão eficaz quanto os humanos continua sendo um problema espinhoso. Um dos principais desafios é permitir que os agentes de IA antecipem comportamentos futuros de outros agentes quando todos estiverem aprendendo simultaneamente.

Devido à complexidade desse problema, as abordagens atuais tendem a ser míopes; os agentes só podem adivinhar os próximos movimentos de seus companheiros de equipe ou concorrentes, o que leva a um desempenho ruim a longo prazo.

Pesquisadores do MIT, do MIT-IBM Watson AI Lab e de outros lugares desenvolveram uma nova abordagem que oferece aos agentes de IA uma perspectiva perspicaz. Sua estrutura de aprendizado de máquina permite que agentes de IA cooperativos ou competitivos considerem o que outros agentes farão à medida que o tempo se aproxima do infinito, não apenas nas próximas etapas. Os agentes então adaptam seus comportamentos de acordo para influenciar os comportamentos futuros de outros agentes e chegar a uma solução ideal de longo prazo.

Essa estrutura pode ser usada por um grupo de drones autônomos trabalhando juntos para encontrar um caminhante perdido em uma floresta densa ou por carros autônomos que se esforçam para manter os passageiros seguros, antecipando movimentos futuros de outros veículos em uma rodovia movimentada.

“Quando os agentes de IA estão cooperando ou competindo, o que mais importa é quando seus comportamentos convergem em algum momento no futuro. Há muitos comportamentos transitórios ao longo do caminho que não importam muito a longo prazo. Alcançar esse comportamento convergente é com o que realmente nos preocupamos e agora temos uma maneira matemática de possibilitar isso”, diz Dong-Ki Kim, estudante de pós-graduação no Laboratório de Sistemas de Informação e Decisão (LIDS) do MIT e principal autor de um artigo que descreve essa estrutura.

O autor sênior é Jonathan P. How, o Richard C. Maclaurin Professor de Aeronáutica e Astronáutica e membro do MIT-IBM Watson AI Lab. Os coautores incluem outros no MIT-IBM Watson AI Lab, IBM Research, Mila-Quebec Artificial Intelligence Institute e Oxford University. A pesquisa será apresentada na Conferência sobre Sistemas de Processamento de Informação Neural.

Mais agentes, mais problemas

Os pesquisadores se concentraram em um problema conhecido como aprendizado por reforço multiagente. O aprendizado por reforço é uma forma de aprendizado de máquina em que um agente de IA aprende por tentativa e erro. Os pesquisadores dão ao agente uma recompensa por “bons” comportamentos que o ajudam a atingir um objetivo. O agente adapta seu comportamento para maximizar essa recompensa até que eventualmente se torne um especialista em uma tarefa.

Mas quando muitos agentes cooperativos ou concorrentes estão aprendendo simultaneamente, as coisas se tornam cada vez mais complexas. À medida que os agentes consideram mais etapas futuras de seus colegas agentes e como seu próprio comportamento influencia os outros, o problema logo requer muito poder computacional para ser resolvido com eficiência. É por isso que outras abordagens se concentram apenas no curto prazo.

“Os AIs realmente querem pensar no final do jogo, mas não sabem quando o jogo terminará. Eles precisam pensar em como continuar adaptando seu comportamento ao infinito para que possam vencer em algum momento distante no futuro . Nosso artigo propõe essencialmente um novo objetivo que permite que uma IA pense no infinito”, diz Kim.

Mas, como é impossível conectar o infinito a um algoritmo, os pesquisadores projetaram seu sistema para que os agentes se concentrem em um ponto futuro em que seu comportamento convergirá com o de outros agentes, conhecido como equilíbrio. Um ponto de equilíbrio determina o desempenho de longo prazo dos agentes, e múltiplos equilíbrios podem existir em um cenário multiagente. Portanto, um agente efetivo influencia ativamente os comportamentos futuros de outros agentes de forma que eles alcancem um equilíbrio desejável do ponto de vista do agente. Se todos os agentes se influenciam, eles convergem para um conceito geral que os pesquisadores chamam de “equilíbrio ativo”.

A estrutura de aprendizado de máquina que eles desenvolveram, conhecida como FURTHER (que significa FULY Reinforcing active influence with average Reward), permite que os agentes aprendam como adaptar seus comportamentos à medida que interagem com outros agentes para alcançar esse equilíbrio ativo.

FURTHER faz isso usando dois módulos de aprendizado de máquina. O primeiro, um módulo de inferência, permite que um agente adivinhe os comportamentos futuros de outros agentes e os algoritmos de aprendizado que eles usam, com base apenas em suas ações anteriores.

Essas informações alimentam o módulo de aprendizado por reforço, que o agente usa para adaptar seu comportamento e influenciar outros agentes de maneira a maximizar sua recompensa.

“O desafio era pensar no infinito. Tivemos que usar muitas ferramentas matemáticas diferentes para possibilitar isso e fazer algumas suposições para que funcionasse na prática”, diz Kim.

Ganhar no longo prazo

Eles testaram sua abordagem contra outras estruturas de aprendizado por reforço multiagente em vários cenários diferentes, incluindo um par de robôs lutando no estilo sumô e uma batalha colocando duas equipes de 25 agentes uma contra a outra. Em ambos os casos, os agentes de IA que usam FURTHER venceram os jogos com mais frequência.

Como sua abordagem é descentralizada, o que significa que os agentes aprendem a vencer os jogos de forma independente, também é mais escalável do que outros métodos que exigem um computador central para controlar os agentes, explica Kim.

Os pesquisadores usaram jogos para testar sua abordagem, mas AINDA poderia ser usado para lidar com qualquer tipo de problema multiagente. Por exemplo, poderia ser aplicado por economistas que buscam desenvolver políticas sólidas em situações em que muitos titulares interagentes têm comportamentos e interesses que mudam ao longo do tempo.

A economia é uma aplicação que Kim está particularmente entusiasmada em estudar. Ele também quer se aprofundar no conceito de equilíbrio ativo e continuar aprimorando a estrutura FURTHER.

Esta pesquisa é financiada, em parte, pelo MIT-IBM Watson AI Lab.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo