.
Os sistemas sensoriais humanos são muito bons em reconhecer objetos que vemos ou palavras que ouvimos, mesmo que o objeto esteja de cabeça para baixo ou a palavra seja dita por uma voz que nunca ouvimos.
Modelos computacionais conhecidos como redes neurais profundas podem ser treinados para fazer a mesma coisa, identificando corretamente a imagem de um cachorro, independentemente da cor do pelo, ou uma palavra, independentemente do tom da voz de quem fala. No entanto, um novo estudo realizado por neurocientistas do MIT descobriu que esses modelos muitas vezes também respondem da mesma maneira a imagens ou palavras que não têm nenhuma semelhança com o alvo.
Quando essas redes neurais eram usadas para gerar uma imagem ou palavra à qual respondiam da mesma forma que uma entrada natural específica, como a imagem de um urso, a maioria delas gerava imagens ou sons irreconhecíveis para os observadores humanos. Isto sugere que estes modelos constroem as suas próprias “invariâncias” idiossincráticas – o que significa que respondem da mesma forma a estímulos com características muito diferentes.
As descobertas oferecem uma nova maneira para os pesquisadores avaliarem até que ponto esses modelos imitam bem a organização da percepção sensorial humana, diz Josh McDermott, professor associado de ciências cerebrais e cognitivas do MIT e membro do Instituto McGovern de Pesquisa do Cérebro e Centro de Cérebros do MIT. , Mentes e Máquinas.
“Este artigo mostra que é possível usar estes modelos para derivar sinais não naturais que acabam por ser muito diagnósticos das representações no modelo”, diz McDermott, autor sénior do estudo. “Este teste deve se tornar parte de uma bateria de testes que nós, como área, estamos usando para avaliar modelos”.
Jenelle Feather PhD ’22, que agora é pesquisadora do Flatiron Institute Center for Computational Neuroscience, é a autora principal do artigo de acesso aberto, que aparece hoje em Neurociência da Natureza. Guillaume Leclerc, estudante de pós-graduação do MIT, e Aleksander Mādry, professor de computação da Cadence Design Systems no MIT, também são autores do artigo.
Percepções diferentes
Nos últimos anos, os pesquisadores treinaram redes neurais profundas que podem analisar milhões de entradas (sons ou imagens) e aprender características comuns que lhes permitem classificar uma palavra ou objeto alvo com aproximadamente a mesma precisão que os humanos. Esses modelos são atualmente considerados os principais modelos de sistemas sensoriais biológicos.
Acredita-se que quando o sistema sensorial humano realiza esse tipo de classificação, ele aprende a desconsiderar características que não são relevantes para a identidade central de um objeto, como a quantidade de luz que incide sobre ele ou o ângulo de onde está sendo visto. Isso é conhecido como invariância, o que significa que os objetos são percebidos como iguais, mesmo que apresentem diferenças nas características menos importantes.
“Classicamente, a forma como pensamos sobre os sistemas sensoriais é que eles criam invariâncias para todas as fontes de variação que diferentes exemplos da mesma coisa podem ter”, diz Feather. “Um organismo tem que reconhecer que são a mesma coisa, embora apareçam como sinais sensoriais muito diferentes”.
Os pesquisadores se perguntaram se as redes neurais profundas treinadas para realizar tarefas de classificação poderiam desenvolver invariâncias semelhantes. Para tentar responder a essa pergunta, eles usaram esses modelos para gerar estímulos que produzissem o mesmo tipo de resposta dentro do modelo como um exemplo de estímulo dado ao modelo pelos pesquisadores.
Eles chamam esses estímulos de “metâmeros modelo”, revivendo uma ideia da pesquisa clássica de percepção segundo a qual estímulos que são indistinguíveis para um sistema podem ser usados para diagnosticar suas invariâncias. O conceito de metâmeros foi originalmente desenvolvido no estudo da percepção humana para descrever cores que parecem idênticas, embora sejam compostas por diferentes comprimentos de onda de luz.
Para sua surpresa, os pesquisadores descobriram que a maioria das imagens e sons produzidos dessa forma não se pareciam nem soavam em nada com os exemplos originalmente dados aos modelos. A maioria das imagens era uma confusão de pixels de aparência aleatória e os sons pareciam ruídos ininteligíveis. Quando os pesquisadores mostraram as imagens aos observadores humanos, na maioria dos casos os humanos não classificaram as imagens sintetizadas pelos modelos na mesma categoria do exemplo alvo original.
“Eles realmente não são reconhecíveis pelos humanos. Eles não parecem nem soam naturais e não têm características interpretáveis que uma pessoa possa usar para classificar um objeto ou palavra”, diz Feather.
As descobertas sugerem que os modelos desenvolveram de alguma forma as suas próprias invariâncias, diferentes daquelas encontradas nos sistemas perceptivos humanos. Isso faz com que os modelos percebam pares de estímulos como iguais, apesar de serem totalmente diferentes de um ser humano.
Invariâncias idiossincráticas
Os pesquisadores encontraram o mesmo efeito em muitos modelos diferentes de visão e audição. No entanto, cada um destes modelos pareceu desenvolver as suas próprias invariâncias. Quando metâmeros de um modelo foram mostrados a outro modelo, os metâmeros ficaram tão irreconhecíveis para o segundo modelo quanto para os observadores humanos.
“A principal inferência disso é que esses modelos parecem ter o que chamamos de invariâncias idiossincráticas”, diz McDermott. “Eles aprenderam a ser invariantes a essas dimensões específicas no espaço de estímulos, e isso é específico do modelo, de modo que outros modelos não têm as mesmas invariâncias”.
Os pesquisadores também descobriram que poderiam induzir os metâmeros de um modelo a serem mais reconhecíveis pelos humanos usando uma abordagem chamada treinamento adversário. Esta abordagem foi originalmente desenvolvida para combater outra limitação dos modelos de reconhecimento de objetos, que é que a introdução de alterações minúsculas e quase imperceptíveis em uma imagem pode fazer com que o modelo a reconheça incorretamente.
Os investigadores descobriram que o treino adversário, que envolve a inclusão de algumas destas imagens ligeiramente alteradas nos dados de treino, produziu modelos cujos metâmeros eram mais reconhecíveis pelos humanos, embora ainda não fossem tão reconhecíveis como os estímulos originais. Esta melhoria parece ser independente do efeito do treino na capacidade dos modelos de resistir a ataques adversários, dizem os investigadores.
“Essa forma específica de treinamento tem um grande efeito, mas não sabemos realmente por que causa esse efeito”, diz Feather. “Essa é uma área para pesquisas futuras.”
A análise dos metâmeros produzidos por modelos computacionais pode ser uma ferramenta útil para ajudar a avaliar até que ponto um modelo computacional imita a organização subjacente dos sistemas de percepção sensorial humanos, dizem os pesquisadores.
“Este é um teste comportamental que você pode executar em um determinado modelo para ver se as invariâncias são compartilhadas entre o modelo e os observadores humanos”, diz Feather. “Também poderia ser usado para avaliar o quão idiossincráticas são as invariâncias dentro de um determinado modelo, o que poderia ajudar a descobrir formas potenciais de melhorar nossos modelos no futuro.”
A pesquisa foi financiada pela National Science Foundation, pelos National Institutes of Health, por uma bolsa de pós-graduação em ciências computacionais do Departamento de Energia e por uma bolsa de amigos do Instituto McGovern.
.