.
Pesquisadores do MIT e da Universidade de Stanford criaram uma nova abordagem de aprendizado de máquina que pode ser usada para controlar um robô, como um drone ou veículo autônomo, de forma mais eficaz e eficiente em ambientes dinâmicos onde as condições podem mudar rapidamente.
Essa técnica pode ajudar um veículo autônomo a aprender a compensar as condições escorregadias da estrada para evitar uma derrapagem, permitir que um piloto livre robótico reboque diferentes objetos no espaço ou permitir que um drone siga de perto um esquiador em declive, apesar de ser atingido por ventos fortes. .
A abordagem dos pesquisadores incorpora certa estrutura da teoria de controle no processo de aprendizagem de um modelo de tal forma que leva a um método eficaz de controle de dinâmicas complexas, como aquelas causadas por impactos de vento na trajetória de um veículo voador. Uma maneira de pensar sobre essa estrutura é como uma dica que pode ajudar a orientar como controlar um sistema.
“O foco do nosso trabalho é aprender a estrutura intrínseca na dinâmica do sistema que pode ser aproveitada para projetar controladores estabilizadores mais eficazes”, diz Navid Azizan, professor assistente de Esther e Harold E. Edgerton no Departamento de Engenharia Mecânica do MIT e do Instituto de Dados, Sistemas e Sociedade (IDSS), e membro do Laboratório de Sistemas de Informação e Decisão (LIDS). “Ao aprender em conjunto a dinâmica do sistema e essas estruturas exclusivas orientadas ao controle a partir dos dados, somos capazes de criar naturalmente controladores que funcionam com muito mais eficiência no mundo real.”
Usando essa estrutura em um modelo aprendido, a técnica dos pesquisadores extrai imediatamente um controlador efetivo do modelo, em oposição a outros métodos de aprendizado de máquina que exigem que um controlador seja derivado ou aprendido separadamente com etapas adicionais. Com essa estrutura, sua abordagem também é capaz de aprender um controlador eficaz usando menos dados do que outras abordagens. Isso pode ajudar seu sistema de controle baseado em aprendizado a obter um melhor desempenho mais rapidamente em ambientes que mudam rapidamente.
“Este trabalho tenta encontrar um equilíbrio entre identificar a estrutura em seu sistema e apenas aprender um modelo a partir dos dados”, diz o principal autor Spencer M. Richards, aluno de pós-graduação da Universidade de Stanford. “Nossa abordagem é inspirada em como os roboticistas usam a física para derivar modelos mais simples para robôs. A análise física desses modelos geralmente produz uma estrutura útil para fins de controle – uma que você pode perder se apenas tentar ingenuamente ajustar um modelo aos dados . Em vez disso, tentamos identificar estruturas igualmente úteis a partir de dados que indicam como implementar sua lógica de controle.”
Os autores adicionais do artigo são Jean-Jacques Slotine, professor de engenharia mecânica e de ciências cognitivas e cerebrais no MIT, e Marco Pavone, professor associado de aeronáutica e astronáutica em Stanford. A pesquisa será apresentada na Conferência Internacional sobre Aprendizado de Máquina (ICML).
Aprendendo um controlador
Determinar a melhor maneira de controlar um robô para realizar uma determinada tarefa pode ser um problema difícil, mesmo quando os pesquisadores sabem como modelar tudo sobre o sistema.
Um controlador é a lógica que permite que um drone siga uma trajetória desejada, por exemplo. Esse controlador diria ao drone como ajustar as forças do rotor para compensar o efeito dos ventos que podem derrubá-lo de um caminho estável para atingir seu objetivo.
Este drone é um sistema dinâmico – um sistema físico que evolui com o tempo. Nesse caso, sua posição e velocidade mudam conforme ele voa pelo ambiente. Se tal sistema for simples o suficiente, os engenheiros podem derivar um controlador manualmente.
Modelar um sistema manualmente captura intrinsecamente uma certa estrutura com base na física do sistema. Por exemplo, se um robô fosse modelado manualmente usando equações diferenciais, elas capturariam a relação entre velocidade, aceleração e força. A aceleração é a taxa de mudança na velocidade ao longo do tempo, que é determinada pela massa e pelas forças aplicadas ao robô.
Mas muitas vezes o sistema é muito complexo para ser modelado exatamente à mão. Os efeitos aerodinâmicos, como a forma como o vento giratório empurra um veículo voador, são notoriamente difíceis de derivar manualmente, explica Richards. Em vez disso, os pesquisadores fariam medições da posição, velocidade e velocidade do rotor do drone ao longo do tempo e usariam o aprendizado de máquina para ajustar um modelo desse sistema dinâmico aos dados. Mas essas abordagens normalmente não aprendem uma estrutura baseada em controle. Essa estrutura é útil para determinar a melhor forma de definir as velocidades do rotor para direcionar o movimento do drone ao longo do tempo.
Depois de modelar o sistema dinâmico, muitas abordagens existentes também usam dados para aprender um controlador separado para o sistema.
“Outras abordagens que tentam aprender a dinâmica e um controlador de dados como entidades separadas são um pouco distantes filosoficamente da maneira como normalmente fazemos isso para sistemas mais simples. Nossa abordagem é mais uma reminiscência de derivar modelos manualmente da física e vincular isso ao controle, “Richards diz.
Estrutura de identificação
A equipe do MIT e de Stanford desenvolveu uma técnica que usa aprendizado de máquina para aprender o modelo dinâmico, mas de forma que o modelo tenha alguma estrutura prescrita que seja útil para controlar o sistema.
Com essa estrutura, eles podem extrair um controlador diretamente do modelo dinâmico, em vez de usar dados para aprender um modelo totalmente separado para o controlador.
“Descobrimos que, além de aprender a dinâmica, também é essencial aprender a estrutura orientada ao controle que oferece suporte ao design eficaz do controlador. Nossa abordagem de aprender fatorações de coeficientes dependentes do estado da dinâmica superou as linhas de base em termos de eficiência de dados e capacidade de rastreamento, provando ter sucesso no controle eficiente e eficaz da trajetória do sistema”, diz Azizan.
Quando testaram essa abordagem, seu controlador seguiu de perto as trajetórias desejadas, superando todos os métodos de linha de base. O controlador extraído de seu modelo aprendido quase combinou com o desempenho de um controlador de verdade, que é construído usando a dinâmica exata do sistema.
“Ao fazer suposições mais simples, conseguimos algo que realmente funcionou melhor do que outras abordagens de linha de base complicadas”, acrescenta Richards.
Os pesquisadores também descobriram que seu método era eficiente em termos de dados, o que significa que alcançou alto desempenho mesmo com poucos dados. Por exemplo, poderia efetivamente modelar um veículo movido a rotor altamente dinâmico usando apenas 100 pontos de dados. Os métodos que usavam vários componentes aprendidos viram seu desempenho cair muito mais rápido com conjuntos de dados menores.
Essa eficiência pode tornar sua técnica especialmente útil em situações em que um drone ou robô precisa aprender rapidamente em condições que mudam rapidamente.
Além disso, sua abordagem é geral e pode ser aplicada a muitos tipos de sistemas dinâmicos, desde braços robóticos até espaçonaves de vôo livre operando em ambientes de baixa gravidade.
No futuro, os pesquisadores estão interessados em desenvolver modelos fisicamente mais interpretáveis, capazes de identificar informações muito específicas sobre um sistema dinâmico, diz Richards. Isso pode levar a controladores de melhor desempenho.
Esta pesquisa é apoiada, em parte, pela NASA University Leadership Initiative e pelo Conselho de Pesquisa em Ciências Naturais e Engenharia do Canadá.
.





