Ciência e Tecnologia

O robô com tecnologia Chatbot do Google DeepMind faz parte de uma revolução maior

.

Em um escritório aberto e desorganizado em Mountain View, Califórnia, um robô alto e esbelto com rodas tem se ocupado em desempenhar o papel de guia turístico e auxiliar informal de escritório, graças a uma grande atualização do modelo de linguagem, o Google DeepMind revelado hoje. O robô usa a versão mais recente do modelo de linguagem Gemini do Google para analisar comandos e encontrar seu caminho.

Quando um humano diz “Encontre um lugar para eu escrever”, por exemplo, o robô obedientemente se afasta, levando a pessoa a um quadro branco imaculado localizado em algum lugar do prédio.

A capacidade do Gemini de lidar com vídeo e texto — além de sua capacidade de ingerir grandes quantidades de informações na forma de tours de vídeo previamente gravados do escritório — permite que o robô “ajudante do Google” entenda seu ambiente e navegue corretamente quando recebe comandos que exigem algum raciocínio de senso comum. O robô combina o Gemini com um algoritmo que gera ações específicas para o robô tomar, como virar, em resposta a comandos e ao que ele vê na frente dele.

Quando o Gemini foi introduzido em dezembro, Demis Hassabis, CEO do Google DeepMind, disse à WIRED que suas capacidades multimodais provavelmente desbloqueariam novas habilidades de robôs. Ele acrescentou que os pesquisadores da empresa estavam trabalhando duro para testar o potencial robótico do modelo.

Em um novo artigo Ao descrever o projeto, os pesquisadores por trás do trabalho dizem que seu robô provou ser até 90% confiável na navegação, mesmo quando recebeu comandos complicados como “Onde deixei meu porta-copos?” O sistema da DeepMind “melhorou significativamente a naturalidade da interação humano-robô e aumentou muito a usabilidade do robô”, escreve a equipe.

Uma foto de um funcionário do Google DeepMind interagindo com um robô de IA.

Cortesia do Google DeepMind

Uma foto de um funcionário do Google DeepMind interagindo com um robô de IA.

Fotografia: Muinat Abdul; Google DeepMind

A demonstração ilustra nitidamente o potencial de grandes modelos de linguagem para alcançar o mundo físico e fazer um trabalho útil. Gemini e outros chatbots operam principalmente dentro dos limites de um navegador da web ou aplicativo, embora sejam cada vez mais capazes de lidar com entrada visual e auditiva, como o Google e o OpenAI demonstraram recentemente. Em maio, Hassabis mostrou uma versão atualizada do Gemini capaz de dar sentido a um layout de escritório visto pela câmera de um smartphone.

Os laboratórios de pesquisa acadêmica e industrial estão correndo para ver como os modelos de linguagem podem ser usados ​​para aprimorar as habilidades dos robôs. O maio programa para a Conferência Internacional sobre Robótica e Automação, um evento popular para pesquisadores de robótica, lista quase duas dúzias de artigos que envolvem o uso de modelos de linguagem de visão.

Os investidores são despejando dinheiro em startups que visam aplicar avanços em IA à robótica. Vários dos pesquisadores envolvidos no projeto do Google deixaram a empresa para fundar uma startup chamada Inteligência Físicaque recebeu um financiamento inicial de US$ 70 milhões; está trabalhando para combinar grandes modelos de linguagem com treinamento no mundo real para dar aos robôs habilidades gerais de resolução de problemas. IA separadafundada por roboticistas da Carnegie Mellon University, tem uma meta similar. Este mês, anunciou US$ 300 milhões em financiamento.

Há apenas alguns anos, um robô precisaria de um mapa de seu ambiente e comandos cuidadosamente escolhidos para navegar com sucesso. Grandes modelos de linguagem contêm informações úteis sobre o mundo físico, e versões mais recentes que são treinadas em imagens e vídeos, bem como texto, conhecidas como modelos de linguagem de visão, podem responder a perguntas que exigem percepção. O Gemini permite que o robô do Google analise instruções visuais, bem como faladas, seguindo um esboço em um quadro branco que mostra uma rota para um novo destino.

Em seu artigo, os pesquisadores dizem que planejam testar o sistema em diferentes tipos de robôs. Eles acrescentam que o Gemini deve ser capaz de dar sentido a perguntas mais complexas, como “Eles têm minha bebida favorita hoje?” de um usuário com muitas latas de Coca-Cola vazias em sua mesa.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo