Estudos/Pesquisa

Uma maneira mais rápida de ensinar um robô — Strong The One

.

Imagine comprar um robô para realizar tarefas domésticas. Este robô foi construído e treinado em uma fábrica em um determinado conjunto de tarefas e nunca viu os itens em sua casa. Quando você pede para ele pegar uma caneca da mesa da cozinha, ele pode não reconhecer sua caneca (talvez porque esta caneca esteja pintada com uma imagem incomum, digamos, do mascote do MIT, Tim the Beaver). Então, o robô falha.

“No momento, da maneira como treinamos esses robôs, quando eles falham, não sabemos realmente por quê. Então, você apenas levantaria as mãos e diria: ‘OK, acho que temos que começar de novo.’ Um componente crítico que está faltando neste sistema é permitir que o robô demonstre por que está falhando, para que o usuário possa fornecer feedback”, diz Andi Peng, estudante de pós-graduação em engenharia elétrica e ciência da computação (EECS) no MIT.

Peng e seus colaboradores do MIT, da Universidade de Nova York e da Universidade da Califórnia em Berkeley criaram uma estrutura que permite aos humanos ensinar rapidamente a um robô o que eles querem que ele faça, com um mínimo de esforço.

Quando um robô falha, o sistema usa um algoritmo para gerar explicações contrafactuais que descrevem o que precisa ser mudado para que o robô tenha sucesso. Por exemplo, talvez o robô pudesse pegar a caneca se ela fosse de uma determinada cor. Ele mostra esses contrafactuais ao humano e pede feedback sobre por que o robô falhou. Em seguida, o sistema utiliza esse feedback e as explicações contrafactuais para gerar novos dados que usa para ajustar o robô.

O ajuste fino envolve ajustar um modelo de aprendizado de máquina que já foi treinado para executar uma tarefa, para que possa executar uma segunda tarefa semelhante.

Os pesquisadores testaram essa técnica em simulações e descobriram que ela poderia ensinar um robô com mais eficiência do que outros métodos. Os robôs treinados com essa estrutura tiveram melhor desempenho, enquanto o processo de treinamento consumiu menos tempo de um ser humano.

Essa estrutura pode ajudar os robôs a aprender mais rapidamente em novos ambientes sem exigir que o usuário tenha conhecimento técnico. A longo prazo, isso pode ser um passo para permitir que robôs de uso geral executem com eficiência tarefas diárias para idosos ou pessoas com deficiência em vários ambientes.

Peng, o principal autor, é acompanhado pelos co-autores Aviv Netanyahu, um estudante de pós-graduação da EECS; Mark Ho, professor assistente do Stevens Institute of Technology; Tianmin Shu, um pós-doutorando do MIT; Andreea Bobu, estudante de pós-graduação na UC Berkeley; e os autores seniores Julie Shah, professora de aeronáutica e astronáutica do MIT e diretora do Grupo de Robótica Interativa no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL), e Pulkit Agrawal, professor da CSAIL. A pesquisa será apresentada na Conferência Internacional sobre Machine Learning.

Treinamento no local de trabalho

Os robôs geralmente falham devido à mudança de distribuição – o robô é apresentado a objetos e espaços que não viu durante o treinamento e não entende o que fazer nesse novo ambiente.

Uma maneira de treinar um robô para uma tarefa específica é o aprendizado por imitação. O usuário poderia demonstrar a tarefa correta para ensinar ao robô o que fazer. Se um usuário tentar ensinar um robô a pegar uma caneca, mas demonstrar com uma caneca branca, o robô poderá aprender que todas as canecas são brancas. Pode então não conseguir pegar uma caneca vermelha, azul ou “Tim-the-Beaver-brown”.

Treinar um robô para reconhecer que uma caneca é uma caneca, independentemente de sua cor, pode exigir milhares de demonstrações.

“Não quero demonstrar com 30.000 canecas. Quero demonstrar com apenas uma caneca. Mas preciso ensinar o robô para que ele reconheça que pode pegar uma caneca de qualquer cor”, diz Peng.

Para conseguir isso, o sistema dos pesquisadores determina com qual objeto específico o usuário se preocupa (uma caneca) e quais elementos não são importantes para a tarefa (talvez a cor da caneca não importe). Ele usa essas informações para gerar novos dados sintéticos, alterando esses conceitos visuais “sem importância”. Esse processo é conhecido como aumento de dados.

A estrutura tem três etapas. Primeiro, mostra a tarefa que causou a falha do robô. Em seguida, ele coleta uma demonstração do usuário das ações desejadas e gera contrafactuais pesquisando todos os recursos no espaço que mostram o que precisava mudar para o sucesso do robô.

O sistema mostra esses contrafactuais ao usuário e pede feedback para determinar quais conceitos visuais não impactam a ação desejada. Em seguida, ele usa esse feedback humano para gerar muitas novas demonstrações aumentadas.

Dessa forma, o usuário poderia demonstrar pegando uma caneca, mas o sistema produziria demonstrações mostrando a ação desejada com milhares de canecas diferentes alterando a cor. Ele usa esses dados para ajustar o robô.

Criar explicações contrafactuais e solicitar feedback do usuário são essenciais para o sucesso da técnica, diz Peng.

Do raciocínio humano ao raciocínio robótico

Como seu trabalho busca colocar o ser humano no ciclo de treinamento, os pesquisadores testaram sua técnica com usuários humanos. Eles primeiro conduziram um estudo no qual perguntavam às pessoas se explicações contrafactuais as ajudavam a identificar elementos que poderiam ser alterados sem afetar a tarefa.

“Ficou tão claro logo de cara. Os humanos são tão bons nesse tipo de raciocínio contrafactual. E essa etapa contrafactual é o que permite que o raciocínio humano seja traduzido em raciocínio robótico de uma forma que faça sentido”, diz ela.

Em seguida, eles aplicaram sua estrutura a três simulações nas quais os robôs foram encarregados de: navegar até um objeto objetivo, pegar uma chave e destrancar uma porta e pegar um objeto desejado e colocá-lo em uma mesa. Em cada instância, seu método permitiu que o robô aprendesse mais rápido do que com outras técnicas, exigindo menos demonstrações dos usuários.

No futuro, os pesquisadores esperam testar essa estrutura em robôs reais. Eles também querem se concentrar em reduzir o tempo que o sistema leva para criar novos dados usando modelos generativos de aprendizado de máquina.

“Queremos que os robôs façam o que os humanos fazem, e queremos que eles façam isso de uma maneira semanticamente significativa. Os humanos tendem a operar neste espaço abstrato, onde não pensam em todas as propriedades de uma imagem. No final das contas, trata-se realmente de permitir que um robô aprenda uma boa representação semelhante à humana em um nível abstrato”, diz Peng.

Esta pesquisa é apoiada, em parte, por uma bolsa de pesquisa de pós-graduação da National Science Foundation, Open Philanthropy, uma bolsa de estudos Apple AI/ML, Hyundai Motor Corporation, o MIT-IBM Watson AI Lab e o National Science Foundation Institute for Artificial Intelligence and Fundamental Interações.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo