Estudos/Pesquisa

Nova técnica melhora a capacidade da IA ​​de mapear o espaço 3D com câmeras 2D

.

Os pesquisadores desenvolveram uma técnica que permite que programas de inteligência artificial (IA) mapeiem melhor espaços tridimensionais usando imagens bidimensionais capturadas por múltiplas câmeras. Como a técnica funciona de forma eficaz com recursos computacionais limitados, ela é promissora para melhorar a navegação de veículos autônomos.

“A maioria dos veículos autônomos usa programas poderosos de IA chamados transformadores de visão para capturar imagens 2D de múltiplas câmeras e criar uma representação do espaço 3D ao redor do veículo”, diz Tianfu Wu, autor correspondente de um artigo sobre o trabalho e professor associado de elétrica e engenharia da computação na Universidade Estadual da Carolina do Norte. “No entanto, embora cada um destes programas de IA adote uma abordagem diferente, ainda há espaço substancial para melhorias.

“Nossa técnica, chamada Multi-View Attentive Contextualization (MvACon), é um suplemento plug-and-play que pode ser usado em conjunto com esses transformadores de visão existentes para melhorar sua capacidade de mapear espaços 3D”, diz Wu. “Os transformadores de visão não estão obtendo dados adicionais de suas câmeras, eles apenas conseguem fazer melhor uso dos dados.”

O MvACon funciona efetivamente modificando uma abordagem chamada atenção Patch-to-Cluster (PaCa), que Wu e seus colaboradores lançaram no ano passado. PaCa permite que IAs de transformadores identifiquem objetos em uma imagem de maneira mais eficiente e eficaz.

“O principal avanço aqui é aplicar o que demonstramos com o PaCa ao desafio de mapear o espaço 3D usando múltiplas câmeras”, diz Wu.

Para testar o desempenho do MvACon, os pesquisadores o usaram em conjunto com três transformadores de visão líderes – BEVFormer, a variante BEVFormer DFA3D e PETR. Em cada caso, os transformadores de visão coletaram imagens 2D de seis câmeras diferentes. Nos três casos, o MvACon melhorou significativamente o desempenho de cada transformador de visão.

“O desempenho foi particularmente melhorado no que diz respeito à localização de objetos, bem como à velocidade e orientação desses objetos”, diz Wu. “E o aumento na demanda computacional para adicionar MvACon aos transformadores de visão foi quase insignificante.

“Nossas próximas etapas incluem testar o MvACon em relação a conjuntos de dados de referência adicionais, bem como testá-lo em relação à entrada de vídeo real de veículos autônomos. Se o MvACon continuar a superar os transformadores de visão existentes, estamos otimistas de que ele será adotado para uso generalizado.”

O artigo, “Contextualização Atentiva Multi-View para Detecção de Objetos 3D Multi-View”, será apresentado em 20 de junho na Conferência IEEE/CVF sobre Visão Computacional e Reconhecimento de Padrões, realizada em Seattle, Washington. O primeiro autor do artigo é Xianpeng Liu, um recente Ph.D. graduado pela NC State. O artigo foi coautor de Ce Zheng e Chen Chen, da Universidade da Flórida Central; Ming Qian e Nan Xue do Grupo Ant; e Zhebin Zhang e Chen Li do OPPO US Research Center.

O trabalho foi realizado com apoio da National Science Foundation, sob bolsas 1909644, 2024688 e 2013451; o Escritório de Pesquisa do Exército dos EUA, sob as doações W911NF1810295 e W911NF2210010; e um fundo de doações para pesquisa da Innopeak Technology, Inc.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo