A Alphabet, empresa controladora do Google, está reunindo dois de seus projetos de pesquisa mais ambiciosos – robótica e compreensão de linguagem de IA – em uma tentativa de criar um “robô auxiliar” que possa entender comandos de linguagem natural.
Desde 2019, a Alphabet desenvolve robôs que podem realizar tarefas simples como buscar bebidas e limpar superfícies. Este projeto Everyday Robots ainda está em sua infância – os robôs são lentos e hesitantes – mas os bots agora receberam uma atualização: compreensão aprimorada da linguagem, cortesia do modelo de linguagem grande (LLM) PaLM do Google.
A maioria dos robôs só responde a instruções curtas e simples, como “traga-me uma garrafa de água”. Mas LLMs como GPT-3 e MuM do Google são capazes de analisar melhor a intenção por trás de comandos mais oblíquos. No exemplo do Google, você pode dizer a um dos protótipos do Everyday Robots “Eu derramei minha bebida, você pode ajudar?” O robô filtra essa instrução por meio de uma lista interna de ações possíveis e a interpreta como “traga-me a esponja da cozinha”.
Sim, é meio que um nível baixo para um robô “inteligente”, mas definitivamente ainda é uma melhoria! O que seria muito inteligente seria se aquele robô visse você derramar uma bebida, ouvisse você grita “gah oh meu deus minha bebida estúpida” e então ajudou.
O Google apelidou o sistema resultante de PaLM-SayCan, o nome que captura como o modelo combina as habilidades de compreensão linguística dos LLMs (“Say”) com a “base de acesso” de seus robôs (que é “Can” – filtrando instruções por meio de ações possíveis).
O Google diz que, ao integrar o PaLM-SayCan em seus robôs, os bots foram capazes de planejar respostas corretas para 101 instruções do usuário 84% das vezes e executar com sucesso eles 74 por cento do tempo. Essa é uma taxa de acerto sólida, mas esses números devem ser tomados com uma pitada de sal. Não temos a lista completa de 101 comandos, portanto, não está claro quão restritas eram essas instruções. Eles realmente capturaram toda a amplitude e complexidade da linguagem que esperaríamos que um robô ajudante doméstico genuíno compreendesse? É improvável.
Isso porque este é o grande desafio para o Google e outros que trabalham em robôs domésticos: a vida real é intransigentemente bagunçada. Existem muitos comandos complexos que gostaríamos de pedir a um robô doméstico real, desde “limpe o cereal que acabei de derramar debaixo do sofá” até “refogue as cebolas para um molho de macarrão” (ambos comandos que contêm uma vasta quantidade de conhecimento implícito, desde como limpar cereais, até onde estão as cebolas na geladeira e como prepará-las e assim por diante).
É por isso que o único robô doméstico deste século a alcançar um mínimo de sucesso – o aspirador de pó robô – tem apenas um propósito na vida: sugar sujeira.
Como a IA oferece melhorias em habilidades como visão e navegação, agora estamos vendo novos tipos de bots entrarem no mercado, mas eles ainda são propositalmente limitados em o que eles podem fazer. Veja o bot Retriever da Labrador Systems, por exemplo. É basicamente uma prateleira sobre rodas que move itens de uma parte da casa para outra. Certamente há muito potencial nesse conceito simples – o robô Retriever pode ser incrivelmente útil para pessoas com mobilidade limitada – mas ainda estamos muito longe dos mordomos robôs dos nossos sonhos.