.
Uma abordagem nova e de inspiração humana para treinar sistemas de inteligência artificial (IA) para identificar objetos e navegar em seus arredores poderia preparar o terreno para o desenvolvimento de sistemas de IA mais avançados para explorar ambientes extremos ou mundos distantes, de acordo com uma pesquisa de uma equipe interdisciplinar em Estado de Penn.
Nos primeiros dois anos de vida, as crianças vivenciam um conjunto um tanto restrito de objetos e rostos, mas com muitos pontos de vista diferentes e sob condições de iluminação variadas. Inspirados por esta visão de desenvolvimento, os investigadores introduziram uma nova abordagem de aprendizagem automática que utiliza informações sobre a posição espacial para treinar sistemas visuais de IA de forma mais eficiente. Eles descobriram que os modelos de IA treinados no novo método superaram os modelos básicos em até 14,99%. Eles relataram suas descobertas na edição de maio da revista Patterns.
“As abordagens atuais em IA usam conjuntos enormes de fotografias da Internet embaralhadas aleatoriamente para treinamento. Em contraste, nossa estratégia é informada pela psicologia do desenvolvimento, que estuda como as crianças percebem o mundo”, disse Lizhen Zhu, principal autor e doutorando no Faculdade de Ciências e Tecnologia da Informação da Penn State.
Os pesquisadores desenvolveram um novo algoritmo de aprendizagem contrastiva, que é um tipo de método de aprendizagem autossupervisionado em que um sistema de IA aprende a detectar padrões visuais para identificar quando duas imagens são derivações da mesma imagem base, resultando em um par positivo. Estes algoritmos, no entanto, muitas vezes tratam imagens do mesmo objeto tiradas de diferentes perspectivas como entidades separadas, em vez de pares positivos. Levar em consideração os dados ambientais, incluindo a localização, permite que o sistema de IA supere esses desafios e detecte pares positivos, independentemente de mudanças na posição ou rotação da câmera, ângulo ou condição de iluminação e distância focal ou zoom, de acordo com os pesquisadores.
“Nossa hipótese é que a aprendizagem visual dos bebês depende da percepção da localização. Para gerar um conjunto de dados egocêntrico com informações espaço-temporais, configuramos ambientes virtuais na plataforma ThreeDWorld, que é um ambiente de simulação física 3D interativo e de alta fidelidade. Isso permitiu manipular e medir a localização das câmeras como se uma criança estivesse andando por uma casa”, acrescentou Zhu.
Os cientistas criaram três ambientes de simulação – House14K, House100K e Apartment14K, com ’14K’ e ‘100K’ referindo-se ao número aproximado de imagens de amostra tiradas em cada ambiente. Em seguida, eles executaram modelos básicos de aprendizagem contrastiva e modelos com o novo algoritmo por meio de simulações três vezes para ver quão bem cada imagem classificava. A equipe descobriu que os modelos treinados em seu algoritmo superaram os modelos básicos em uma variedade de tarefas. Por exemplo, numa tarefa de reconhecimento do quarto do apartamento virtual, o modelo aumentado teve um desempenho médio de 99,35%, uma melhoria de 14,99% em relação ao modelo base. Esses novos conjuntos de dados estão disponíveis para outros cientistas usarem em treinamento por meio de www.child-view.com.
“É sempre difícil para os modelos aprenderem em um novo ambiente com uma pequena quantidade de dados. Nosso trabalho representa uma das primeiras tentativas de treinamento de IA mais flexível e eficiente em termos de energia usando conteúdo visual”, disse James Wang, distinto professor de ciências da informação. e tecnologia e consultor de Zhu.
A pesquisa tem implicações para o desenvolvimento futuro de sistemas avançados de IA destinados a navegar e aprender em novos ambientes, segundo os cientistas.
“Essa abordagem seria particularmente benéfica em situações em que uma equipe de robôs autônomos com recursos limitados precisa aprender a navegar em um ambiente completamente desconhecido”, disse Wang. “Para preparar o caminho para aplicações futuras, planejamos refinar nosso modelo para aproveitar melhor as informações espaciais e incorporar ambientes mais diversos.”
Colaboradores do Departamento de Psicologia e do Departamento de Ciência da Computação e Engenharia da Penn State também contribuíram para este estudo. Este trabalho foi apoiado pela National Science Foundation dos EUA, bem como pelo Instituto de Ciências Computacionais e de Dados da Penn State.
.