News

Carros autônomos ainda carecem de bom senso. A tecnologia de chatbot de IA pode ser a resposta

.

Uma busca rápida na internet renderá vários vídeos mostrando os percalços de carros autônomos, muitas vezes arrancando um sorriso ou risada. Mas por que achamos esses comportamentos engraçados? Pode ser porque eles contrastam fortemente com a forma como um motorista humano lidaria com situações semelhantes.

Situações cotidianas que parecem triviais para nós ainda podem representar desafios significativos para carros autônomos. Isso ocorre porque eles são projetados usando métodos de engenharia que diferem fundamentalmente de como a mente humana funciona. No entanto, avanços recentes em IA abriram novas possibilidades.

Novos sistemas de IA com recursos de linguagem – como a tecnologia por trás de chatbots como o ChatGPT – podem ser essenciais para fazer com que carros autônomos raciocinem e se comportem mais como motoristas humanos.

A pesquisa sobre direção autônoma ganhou um impulso significativo no final da década de 2010 com o advento das redes neurais profundas (DNNs), uma forma de inteligência artificial (IA) que envolve o processamento de dados de uma forma inspirada pelo cérebro humano. Isso permite o processamento de imagens e vídeos de cenários de tráfego para identificar “elementos críticos”, como obstáculos.

Detectar isso frequentemente envolve computar uma caixa 3D para determinar os tamanhos, orientações e posições dos obstáculos. Esse processo, aplicado a veículos, pedestres e ciclistas, por exemplo, cria uma representação do mundo com base em classes e propriedades espaciais, incluindo distância e velocidade em relação ao carro autônomo.

Esta é a base da abordagem de engenharia mais amplamente adotada para a direção autônoma, conhecida como “sentir-pensar-agir”. Nesta abordagem, os dados do sensor são primeiro processados ​​pela DNN. Os dados do sensor são então usados ​​para prever trajetórias de obstáculos. Finalmente, os sistemas planejam as próximas ações do carro.

Embora essa abordagem ofereça benefícios como depuração fácil, a estrutura sentir-pensar-agir tem uma limitação crítica: ela é fundamentalmente diferente dos mecanismos cerebrais por trás da direção humana.

Lições do cérebro

Muito sobre a função cerebral permanece desconhecido, tornando desafiador aplicar a intuição derivada do cérebro humano a veículos autônomos. No entanto, vários esforços de pesquisa visam se inspirar na neurociência, ciência cognitiva e psicologia para melhorar a direção autônoma.

Uma teoria há muito estabelecida sugere que “sentir” e “agir” não são processos sequenciais, mas sim intimamente inter-relacionados. Os humanos percebem seu ambiente em termos de sua capacidade de agir sobre ele.

Por exemplo, ao se preparar para virar à esquerda em um cruzamento, um motorista foca em partes específicas do ambiente e obstáculos relevantes para a curva. Em contraste, a abordagem sense-think-act processa todo o cenário independentemente das intenções de ação atuais.

Carro Waymo em São Francisco
São Francisco tem sido usada como um campo de testes para serviços de robotáxi.
Imagens Tada / Shutterstock

Outra diferença crítica com os humanos é que as DNNs dependem principalmente dos dados com os quais foram treinadas. Quando expostas a uma leve variação incomum de um cenário, elas podem falhar ou perder informações importantes.

Esses cenários raros e sub-representados, conhecidos como “casos de cauda longa”, apresentam um grande desafio. As soluções alternativas atuais envolvem a criação de conjuntos de dados de treinamento cada vez maiores, mas a complexidade e a variabilidade de situações da vida real tornam impossível cobrir todas as possibilidades.

Como resultado, abordagens baseadas em dados como sense-think-act têm dificuldade para generalizar para situações não vistas. Os humanos, por outro lado, se destacam em lidar com situações novas.

Graças a um conhecimento geral do mundo, somos capazes de avaliar novos cenários usando o “senso comum”: uma mistura de conhecimento prático, raciocínio e uma compreensão intuitiva de como as pessoas geralmente se comportam, construída a partir de uma vida inteira de experiências.

Na verdade, dirigir para humanos é outra forma de interação social, e o senso comum é a chave para interpretar os comportamentos dos usuários da estrada (outros motoristas, pedestres, ciclistas). Essa habilidade nos permite fazer julgamentos e decisões sensatas em situações inesperadas.

Copiando o senso comum

Replicar o senso comum em DNNs tem sido um desafio significativo na última década, levando os acadêmicos a pedir uma mudança radical na abordagem. Avanços recentes em IA estão finalmente oferecendo uma solução.

Large language models (LLMs) são a tecnologia por trás de chatbots como o ChatGPT e demonstraram proficiência notável em entender e gerar linguagem humana. Suas habilidades impressionantes derivam de serem treinadas em vastas quantidades de informações em vários domínios, o que lhes permitiu desenvolver uma forma de senso comum semelhante à nossa.

Mais recentemente, LLMs multimodais (que podem responder a solicitações do usuário em texto, visão e vídeo), como GPT-4o e GPT-4o-mini, combinaram linguagem com visão, integrando amplo conhecimento do mundo com a capacidade de raciocinar sobre entradas visuais.

Esses modelos podem compreender cenários complexos invisíveis, fornecer explicações em linguagem natural e recomendar ações apropriadas, oferecendo uma solução promissora para o problema de cauda longa.

Na robótica, modelos de visão-linguagem-ação (VLAMs) estão surgindo, combinando processamento linguístico e visual com ações do robô. Os ​​VLAMs estão demonstrando resultados iniciais impressionantes no controle de braços robóticos por meio de instruções de linguagem.

Na direção autônoma, a pesquisa inicial está se concentrando no uso de modelos multimodais para fornecer comentários de direção e explicações de decisões de planejamento motor. Por exemplo, um modelo pode indicar: “Há um ciclista na minha frente, começando a desacelerar”, fornecendo insights sobre o processo de tomada de decisão e aumentando a transparência. A empresa Wayve mostrou resultados iniciais promissores na aplicação de carros autônomos orientados por linguagem em um nível comercial.

O futuro da condução

Embora os LLMs possam abordar casos de cauda longa, eles apresentam novos desafios. Avaliar sua confiabilidade e segurança é mais complexo do que para abordagens modulares como sense-think-act. Cada componente de um veículo autônomo, incluindo LLMs integrados, deve ser verificado, exigindo novas metodologias de teste adaptadas a esses sistemas.

Além disso, LLMs multimodais são grandes e exigem muito dos recursos do computador, o que leva a uma alta latência (um atraso na ação ou comunicação do computador). Carros autônomos precisam de operação em tempo real, e os modelos atuais não conseguem gerar respostas com rapidez suficiente. Executar LLMs também requer poder de processamento e memória significativos, o que entra em conflito com as restrições limitadas de hardware dos veículos.

Vários esforços de pesquisa estão agora focados na otimização de LLMs para uso em veículos. Levará alguns anos até que vejamos veículos comerciais autônomos com raciocínio de senso comum nas ruas.

No entanto, o futuro da direção autônoma é brilhante. Em modelos de IA com capacidades de linguagem, temos uma alternativa sólida ao paradigma sentir-pensar-agir, que está se aproximando de seus limites.

Os LLMs são amplamente considerados a chave para alcançar veículos que possam raciocinar e se comportar mais como humanos. Esse avanço é crucial, considerando que aproximadamente 1,19 milhão de pessoas morrem a cada ano devido a acidentes de trânsito.

Lesões no trânsito são a principal causa de morte de crianças e jovens adultos de 5 a 29 anos. O desenvolvimento de veículos autônomos com raciocínio semelhante ao humano poderia potencialmente reduzir esses números significativamente, salvando inúmeras vidas.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo