.
Algum dia, você pode querer que seu robô doméstico carregue um monte de roupas sujas para baixo e as coloque na máquina de lavar, no canto esquerdo do porão. O robô precisará combinar suas instruções com suas observações visuais para determinar as etapas que deverá seguir para concluir esta tarefa.
Para um agente de IA, é mais fácil falar do que fazer. As abordagens atuais geralmente utilizam vários modelos de aprendizado de máquina feitos à mão para lidar com diferentes partes da tarefa, que exigem muito esforço humano e experiência para serem construídas. Esses métodos, que utilizam representações visuais para tomar decisões de navegação diretamente, exigem grandes quantidades de dados visuais para treinamento, que muitas vezes são difíceis de obter.
Para superar esses desafios, pesquisadores do MIT e do MIT-IBM Watson AI Lab desenvolveram um método de navegação que converte representações visuais em pedaços de linguagem, que são então alimentados em um grande modelo de linguagem que realiza todas as partes da tarefa de navegação em várias etapas.
Em vez de codificar características visuais de imagens do entorno de um robô como representações visuais, o que exige muita computação, seu método cria legendas de texto que descrevem o ponto de vista do robô. Um grande modelo de linguagem usa legendas para prever as ações que um robô deve realizar para cumprir as instruções baseadas no idioma de um usuário.
Como seu método utiliza representações puramente baseadas em linguagem, eles podem usar um grande modelo de linguagem para gerar com eficiência uma enorme quantidade de dados de treinamento sintéticos.
Embora esta abordagem não supere as técnicas que utilizam recursos visuais, ela funciona bem em situações que não possuem dados visuais suficientes para treinamento. Os pesquisadores descobriram que combinar suas entradas baseadas em linguagem com sinais visuais leva a um melhor desempenho de navegação.
“Ao usar puramente a linguagem como representação perceptiva, nossa abordagem é mais direta. Como todas as entradas podem ser codificadas como linguagem, podemos gerar uma trajetória compreensível para os humanos”, diz Bowen Pan, engenheiro elétrico e ciência da computação (EECS) estudante de pós-graduação e autor principal de um artigo sobre essa abordagem.
Os coautores de Pan incluem seu consultor, Aude Oliva, diretor de engajamento estratégico da indústria no MIT Schwarzman College of Computing, diretor do MIT-IBM Watson AI Lab do MIT e cientista pesquisador sênior no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL). ); Philip Isola, professor associado do EECS e membro do CSAIL; autor sênior Yoon Kim, professor assistente do EECS e membro do CSAIL; e outros no MIT-IBM Watson AI Lab e no Dartmouth College. A pesquisa será apresentada na Conferência do Capítulo Norte-Americano da Association for Computational Linguistics.
Resolvendo um problema de visão com a linguagem
Como os grandes modelos de linguagem são os modelos de aprendizagem automática mais poderosos disponíveis, os investigadores procuraram incorporá-los na tarefa complexa conhecida como navegação de visão e linguagem, diz Pan.
Mas esses modelos recebem entradas baseadas em texto e não podem processar dados visuais da câmera de um robô. Então, a equipe precisava encontrar uma maneira de usar a linguagem.
Sua técnica utiliza um modelo simples de legendas para obter descrições de texto das observações visuais de um robô. Essas legendas são combinadas com instruções baseadas em linguagem e alimentadas em um grande modelo de linguagem, que decide qual passo de navegação o robô deve realizar em seguida.
O modelo de linguagem grande gera uma legenda da cena que o robô deverá ver após concluir essa etapa. Isso é usado para atualizar o histórico de trajetória para que o robô possa acompanhar onde esteve.
O modelo repete esses processos para gerar uma trajetória que guia o robô até seu objetivo, um passo de cada vez.
Para agilizar o processo, os pesquisadores criaram modelos para que as informações de observação sejam apresentadas ao modelo em um formato padrão – como uma série de escolhas que o robô pode fazer com base no ambiente.
Por exemplo, uma legenda pode dizer “30 graus à esquerda há uma porta com um vaso de planta ao lado, nas suas costas há um pequeno escritório com uma mesa e um computador”, etc. a porta ou o escritório.
“Um dos maiores desafios foi descobrir como codificar esse tipo de informação em linguagem de maneira adequada para fazer o agente entender qual é a tarefa e como deveria responder”, diz Pan.
Vantagens da linguagem
Quando testaram esta abordagem, embora não conseguisse superar as técnicas baseadas na visão, descobriram que oferecia diversas vantagens.
Primeiro, como o texto requer menos recursos computacionais para sintetizar do que dados de imagem complexos, seu método pode ser usado para gerar rapidamente dados de treinamento sintéticos. Em um teste, eles geraram 10.000 trajetórias sintéticas baseadas em 10 trajetórias visuais do mundo real.
A técnica também pode preencher a lacuna que pode impedir que um agente treinado em um ambiente simulado tenha um bom desempenho no mundo real. Essa lacuna geralmente ocorre porque as imagens geradas por computador podem parecer bem diferentes das cenas do mundo real devido a elementos como iluminação ou cor. Mas a linguagem que descreve uma imagem sintética versus uma imagem real seria muito mais difícil de distinguir, diz Pan.
Além disso, as representações que seu modelo usa são mais fáceis de serem compreendidas por um ser humano porque são escritas em linguagem natural.
“Se o agente não conseguir atingir o seu objetivo, poderemos determinar mais facilmente onde falhou e porque falhou. Talvez a informação histórica não seja suficientemente clara ou a observação ignore alguns detalhes importantes”, diz Pan.
Além disso, seu método poderia ser aplicado mais facilmente a tarefas e ambientes variados porque utiliza apenas um tipo de entrada. Desde que os dados possam ser codificados como linguagem, eles podem usar o mesmo modelo sem fazer nenhuma modificação.
Mas uma desvantagem é que o seu método perde naturalmente algumas informações que seriam capturadas por modelos baseados em visão, como informações de profundidade.
No entanto, os pesquisadores ficaram surpresos ao ver que a combinação de representações baseadas na linguagem com métodos baseados na visão melhora a capacidade de navegação do agente.
“Talvez isso signifique que a linguagem pode capturar algumas informações de nível superior que não podem ser capturadas com recursos de visão pura”, diz ele.
Esta é uma área que os pesquisadores querem continuar explorando. Eles também querem desenvolver um legendador orientado à navegação que possa aumentar o desempenho do método. Além disso, eles querem investigar a capacidade de grandes modelos de linguagem exibirem consciência espacial e ver como isso poderia ajudar na navegação baseada na linguagem.
Esta pesquisa é financiada, em parte, pelo MIT-IBM Watson AI Lab.
.