No final da semana passada, o cientista de pesquisa do Google, Fei Xia, sentou-se no centro de uma cozinha iluminada e aberta e digitou um comando em um laptop conectado a um -robô armado e com rodas que se assemelha a uma grande luminária de chão. “Estou com fome”, escreveu ele. O robô prontamente se aproximou de uma bancada próxima, cuidadosamente pegou um saco de chips multigrãos com uma grande pinça de plástico e foi até Xia para oferecer um lanche.
O mais O impressionante dessa demonstração, realizada no laboratório de robótica do Google em Mountain View, Califórnia, foi que nenhum codificador humano havia programado o robô para entender o que fazer em resposta ao comando de Xia. Seu software de controle havia aprendido a traduzir uma frase falada em uma sequência de ações físicas usando milhões de páginas de texto extraídas da web.
Isso significa que uma pessoa não precisa use palavras pré-aprovadas específicas para emitir comandos, como pode ser necessário com assistentes virtuais como Alexa ou Siri. Diga ao robô “Estou com sede”, e ele deve tentar encontrar algo para você beber; diga “Opa, acabei de derramar minha bebida”, e ele deve voltar com uma esponja.
Cortesia do Google
“Para lidar com a diversidade do mundo real, os robôs precisam ser capazes de se adaptar e aprender com suas experiências”, disse Karol Hausman, cientista de pesquisa sênior do Google, durante a demonstração, que também incluiu o robô trazendo uma esponja para limpar um derramamento. Para interagir com os humanos, as máquinas devem aprender a entender como as palavras podem ser reunidas de várias maneiras para gerar significados diferentes. “Cabe ao robô entender todas as pequenas sutilezas e complexidades da linguagem”, disse Hausman.
A demonstração do Google foi um passo em direção ao objetivo de longa data de criar robôs capazes de interagir com humanos em ambientes complexos. Nos últimos anos, os pesquisadores descobriram que alimentar grandes quantidades de texto retirado de livros ou da web em grandes modelos de aprendizado de máquina pode produzir programas com habilidades de linguagem impressionantes, incluindo o gerador de texto GPT-3 da OpenAI. Ao digerir as muitas formas de escrita online, o software pode adquirir a capacidade de resumir ou responder a perguntas sobre texto, gerar artigos coerentes sobre um determinado assunto ou até mesmo manter conversas convincentes.
O Google e outras grandes empresas de tecnologia estão fazendo amplo uso desses grandes modelos de linguagem para pesquisa e publicidade. Várias empresas oferecem a tecnologia por meio de APIs na nuvem, e novos serviços surgiram aplicando recursos de linguagem de IA a tarefas como gerar código ou escrever textos publicitários. O engenheiro do Google, Blake Lemoine, foi demitido recentemente após alertar publicamente que um chatbot alimentado pela tecnologia, chamado LaMDA, pode ser senciente. Um vice-presidente do Google que continua empregado na empresa escreveu em The
Economist que conversar com o bot parecia “conversar com algo inteligente”. regurgitando rabiscos. Modelos de linguagem treinados com texto da web também não têm uma compreensão da verdade e muitas vezes reproduzem preconceitos ou linguagem odiosa encontrada em seus dados de treinamento, sugerindo que uma engenharia cuidadosa pode ser necessária para guiar um robô de maneira confiável sem que ele enlouqueça.
O robô demonstrado por Hausman foi alimentado pelo modelo de linguagem mais poderoso que o Google anunciou até agora, conhecido como PaLM. É capaz de muitos truques, incluindo explicar, em linguagem natural, como chega a uma conclusão específica ao responder a uma pergunta. A mesma abordagem é usada para gerar uma sequência de etapas que o robô executará para realizar uma determinada tarefa.