Estudos/Pesquisa

Este sistema de aprendizado de máquina pode simular como um ouvinte ouviria um som de qualquer ponto de uma sala – Strong The One

.

Imagine os acordes estrondosos de um órgão de tubos ecoando pelo santuário cavernoso de uma enorme catedral de pedra.

O som que um frequentador de catedral ouvirá é afetado por muitos fatores, incluindo a localização do órgão, onde o ouvinte está, se há colunas, bancos ou outros obstáculos entre eles, de que são feitas as paredes, a localização das janelas ou portas, etc. Ouvir um som pode ajudar alguém a visualizar seu ambiente.

Pesquisadores do MIT e do MIT-IBM Watson AI Lab estão explorando o uso de informações acústicas espaciais para ajudar as máquinas a visualizar melhor seus ambientes também. Eles desenvolveram um modelo de aprendizado de máquina que pode capturar como qualquer som em uma sala se propagará pelo espaço, permitindo que o modelo simule o que um ouvinte ouviria em diferentes locais.

Ao modelar com precisão a acústica de uma cena, o sistema pode aprender a geometria 3D subjacente de uma sala a partir de gravações de som. Os pesquisadores podem usar as informações acústicas que seu sistema captura para construir renderizações visuais precisas de uma sala, da mesma forma que os humanos usam o som ao estimar as propriedades de seu ambiente físico.

Além de suas potenciais aplicações em realidade virtual e aumentada, essa técnica pode ajudar os agentes de inteligência artificial a desenvolver uma melhor compreensão do mundo ao seu redor. Por exemplo, ao modelar as propriedades acústicas do som em seu ambiente, um robô de exploração subaquática pode sentir coisas que estão mais distantes do que poderia apenas com a visão, diz Yilun Du, estudante de pós-graduação do Departamento de Engenharia Elétrica e Ciência da Computação. EECS) e co-autor de um artigo descrevendo o modelo.

“A maioria dos pesquisadores se concentrou apenas na modelagem da visão até agora. Mas, como humanos, temos percepção multimodal. Não apenas a visão é importante, o som também é importante. Acho que este trabalho abre uma direção de pesquisa empolgante sobre como melhor utilizar o som para modelar o mundo “, diz Du.

Juntando-se a Du no artigo estão o autor principal Andrew Luo, estudante de pós-graduação da Carnegie Mellon University (CMU); Michael J. Tarr, Professor Kavčić-Moura de Ciências Cognitivas e do Cérebro na CMU; e autores seniores Joshua B. Tenenbaum, o Paul E. Newton Professor de Desenvolvimento de Carreira de Ciência Cognitiva e Computação no Departamento de Cérebro e Ciências Cognitivas do MIT e membro do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL); Antonio Torralba, professor de engenharia elétrica e ciência da computação da Delta Electronics e membro do CSAIL; e Chuang Gan, um dos principais membros da equipe de pesquisa do MIT-IBM Watson AI Lab. A pesquisa será apresentada na Conferência sobre Sistemas de Processamento de Informação Neural.

Som e visão

Na pesquisa de visão computacional, um tipo de modelo de aprendizado de máquina chamado modelo de representação neural implícito foi usado para gerar reconstruções suaves e contínuas de cenas 3D a partir de imagens. Esses modelos utilizam redes neurais, que contêm camadas de nós interconectados, ou neurônios, que processam dados para concluir uma tarefa.

Os pesquisadores do MIT empregaram o mesmo tipo de modelo para capturar como o som viaja continuamente através de uma cena.

Mas eles descobriram que os modelos de visão se beneficiam de uma propriedade conhecida como consistência fotométrica que não se aplica ao som. Se olharmos para o mesmo objeto de dois locais diferentes, o objeto parece aproximadamente o mesmo. Mas com som, mude de local e o som que se ouve pode ser completamente diferente devido a obstáculos, distância, etc. Isso dificulta muito a previsão de áudio.

Os pesquisadores superaram esse problema incorporando duas propriedades da acústica em seu modelo: a natureza recíproca do som e a influência das características geométricas locais.

O som é recíproco, o que significa que se a fonte de um som e um ouvinte trocarem de posição, o que a pessoa ouve não muda. Além disso, o que se ouve em uma determinada área é fortemente influenciado por características locais, como um obstáculo entre o ouvinte e a fonte do som.

Para incorporar esses dois fatores em seu modelo, chamado de campo acústico neural (NAF), eles aumentam a rede neural com uma grade que captura objetos e recursos arquitetônicos na cena, como portas ou paredes. O modelo amostra aleatoriamente pontos nessa grade para aprender os recursos em locais específicos.

“Se você se imaginar perto de uma porta, o que mais afeta o que você ouve é a presença dessa porta, não necessariamente características geométricas distantes de você do outro lado da sala. Descobrimos que essa informação permite uma melhor generalização do que um simples rede conectada”, diz Luo.

Da previsão de sons à visualização de cenas

Os pesquisadores podem alimentar o NAF com informações visuais sobre uma cena e alguns espectrogramas que mostram como um pedaço de áudio soaria quando o emissor e o ouvinte estão localizados em locais-alvo ao redor da sala. Em seguida, o modelo prevê como esse áudio soaria se o ouvinte se mover para qualquer ponto da cena.

O NAF emite uma resposta de impulso, que captura como um som deve mudar à medida que se propaga pela cena. Os pesquisadores então aplicam essa resposta de impulso a diferentes sons para ouvir como esses sons devem mudar à medida que uma pessoa caminha por uma sala.

Por exemplo, se uma música estiver tocando em um alto-falante no centro de uma sala, seu modelo mostraria como esse som fica mais alto à medida que uma pessoa se aproxima do alto-falante e depois fica abafado quando sai em um corredor adjacente.

Quando os pesquisadores compararam sua técnica com outros métodos que modelam informações acústicas, geraram modelos de som mais precisos em todos os casos. E porque aprendeu informações geométricas locais, seu modelo foi capaz de generalizar para novos locais em uma cena muito melhor do que outros métodos.

Além disso, eles descobriram que aplicar as informações acústicas que seu modelo aprende a um modelo de visão computacional pode levar a uma melhor reconstrução visual da cena.

“Quando você tem apenas um conjunto esparso de visualizações, o uso desses recursos acústicos permite que você capture os limites com mais nitidez, por exemplo. E talvez seja porque para renderizar com precisão a acústica de uma cena, você precisa capturar a geometria 3D subjacente dessa cena”, diz Du.

Os pesquisadores planejam continuar aprimorando o modelo para que ele possa generalizar para novas cenas. Eles também querem aplicar essa técnica a respostas de impulso mais complexas e cenas maiores, como prédios inteiros ou até mesmo uma cidade.

“Esta nova técnica pode abrir novas oportunidades para criar uma experiência imersiva multimodal no aplicativo metaverso”, acrescenta Gan.

Este trabalho é apoiado, em parte, pelo MIT-IBM Watson AI Lab e pelo Tianqiao and Chrissy Chen Institute.

Vídeo: https://youtu.be/9HavzvJuQls

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo