technology

O PaLM-E do Google é um cérebro de robô generalista que recebe comandos

.

Um braço robótico controlado pelo PaLM-E alcança um saco de batatas fritas em um vídeo de demonstração.
Prolongar / Um braço robótico controlado pelo PaLM-E alcança um saco de batatas fritas em um vídeo de demonstração.

Pesquisa do Google

Na segunda-feira, um grupo de pesquisadores de IA do Google e da Universidade Técnica de Berlim apresentou o PaLM-E, um modelo multimodal de linguagem visual incorporada (VLM) com 562 bilhões de parâmetros que integra visão e linguagem para controle robótico. Eles afirmam que é o maior VLM já desenvolvido e que pode executar uma variedade de tarefas sem a necessidade de retreinamento.

Segundo o Google, ao receber um comando de alto nível, como “traga-me os chips de arroz da gaveta”, o PaLM-E pode gerar um plano de ação para uma plataforma de robô móvel com braço (desenvolvida pela Google Robotics) e executar as ações por si só.

O PaLM-E faz isso analisando dados da câmera do robô sem precisar de uma representação de cena pré-processada. Isso elimina a necessidade de um humano pré-processar ou anotar os dados e permite um controle robótico mais autônomo.

Em um vídeo de demonstração fornecido pelo Google, o PaLM-E executa “traga-me os chips de arroz da gaveta”, que inclui várias etapas de planejamento, além de incorporar feedback visual da câmera do robô.

Também é resiliente e pode reagir ao seu ambiente. Por exemplo, o modelo PaLM-E pode guiar um robô para pegar um saco de batatas fritas na cozinha – e com o PaLM-E integrado ao loop de controle, ele se torna resistente a interrupções que podem ocorrer durante a tarefa. Em um exemplo de vídeo, um pesquisador pega os chips do robô e os move, mas o robô localiza os chips e os pega novamente.

Em outro exemplo, o mesmo modelo PaLM-E controla de forma autônoma um robô por meio de tarefas com sequências complexas que antes exigiam orientação humana. O trabalho de pesquisa do Google explica como o PaLM-E transforma instruções em ações:

Demonstramos o desempenho do PaLM-E em tarefas desafiadoras e diversas de manipulação móvel. Seguimos em grande parte a configuração em Ahn et al. (2022), onde o robô precisa planejar uma sequência de ações de navegação e manipulação com base em uma instrução de um humano. Por exemplo, dada a instrução “Eu derramei minha bebida, você pode me trazer algo para limpar?”, o robô precisa planejar uma sequência contendo “1. Encontre uma esponja, 2. Pegue a esponja, 3. Traga-a para o usuário, 4. Largue a esponja.” Inspirados por essas tarefas, desenvolvemos 3 casos de uso para testar as habilidades de raciocínio incorporadas do PaLM-E: previsão de recursos, detecção de falhas e planejamento de horizonte longo. As políticas de baixo nível são do RT-1 (Brohan et al., 2022), um modelo de transformador que usa imagem RGB e instrução de linguagem natural e emite comandos de controle do efetuador final.

O PaLM-E é um preditor de próximo token e é chamado de “PaLM-E” porque é baseado no modelo de linguagem grande (LLM) existente do Google chamado “PaLM” (que é semelhante à tecnologia por trás do ChatGPT). O Google tornou o PaLM “incorporado” adicionando informações sensoriais e controle robótico.

Como é baseado em um modelo de linguagem, o PaLM-E faz observações contínuas, como imagens ou dados de sensor, e as codifica em uma sequência de vetores do mesmo tamanho que os tokens de linguagem. Isso permite que o modelo “entenda” a informação sensorial da mesma forma que processa a linguagem.

Um vídeo de demonstração fornecido pelo Google mostrando um robô guiado por PaLM-E seguindo a instrução: “Traga-me uma estrela verde”. Os pesquisadores dizem que a estrela verde “é um objeto ao qual este robô não foi diretamente exposto”.

Além do transformador de robótica RT-1, o PaLM-E se baseia no trabalho anterior do Google no ViT-22B, um modelo de transformador de visão revelado em fevereiro. O ViT-22B foi treinado em várias tarefas visuais, como classificação de imagens, detecção de objetos, segmentação semântica e legenda de imagens.

O Google Robotics não é o único grupo de pesquisa trabalhando em controle robótico com redes neurais. Este trabalho em particular se assemelha ao recente artigo “ChatGPT for Robotics” da Microsoft, que experimentou combinar dados visuais e grandes modelos de linguagem para controle robótico de maneira semelhante.

Robótica à parte, os pesquisadores do Google observaram vários efeitos interessantes que aparentemente vêm do uso de um grande modelo de linguagem como o núcleo do PaLM-E. Por um lado, exibe “transferência positiva”, o que significa que pode transferir o conhecimento e as habilidades que aprendeu de uma tarefa para outra, resultando em “desempenho significativamente superior” em comparação com modelos de robôs de tarefa única.

Além disso, eles observado uma tendência com escala de modelo: “Quanto maior o modelo de linguagem, mais ele mantém suas capacidades de linguagem ao treinar em linguagem visual e tarefas robóticas – quantitativamente, o modelo 562B PaLM-E quase retém todas as suas capacidades de linguagem.”

E os pesquisadores alegar que o PaLM-E exibe recursos emergentes como raciocínio multimodal em cadeia de pensamento (permitindo que o modelo analise uma sequência de entradas que incluem linguagem e informações visuais) e inferência de várias imagens (usando várias imagens como entrada para fazer uma inferência ou previsão ) apesar de ser treinado apenas em prompts de imagem única. Nesse sentido, o PaLM-E parece continuar a tendência de surpresas emergentes à medida que os modelos de aprendizado profundo se tornam mais complexos com o tempo.

Os pesquisadores do Google planejam explorar mais aplicações do PaLM-E para cenários do mundo real, como automação residencial ou robótica industrial. E eles esperam que o PaLM-E inspire mais pesquisas sobre raciocínio multimodal e IA incorporada.

“Multimodal” é uma palavra da moda que ouviremos cada vez mais à medida que as empresas buscam inteligência artificial geral que ostensivamente será capaz de executar tarefas gerais como um ser humano.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo