.
A produção da fala é um fenômeno neural complexo que deixou os pesquisadores sem palavras para explicá-lo. Separar a complexa teia de regiões neurais que controlam o movimento muscular preciso na boca, mandíbula e língua com as regiões que processam o feedback auditivo de ouvir sua própria voz é um problema complexo e que precisa ser superado para a próxima geração de fala- produzindo próteses.
Agora, uma equipe de pesquisadores da Universidade de Nova York fez descobertas importantes que ajudam a desembaraçar essa teia e está usando-as para construir uma tecnologia de reconstrução vocal que recria as vozes de pacientes que perderam a capacidade de falar.
A equipe, co-liderada por Adeen Flinker – Professor Associado de Engenharia Biomédica na NYU Tandon e Neurologia na NYU Grossman School of Medicine – e Yao Wang – Professor de Engenharia Biomédica e Engenharia Elétrica e de Computação na NYU Tandon, bem como um membro da NYU WIRELESS – criou e usou redes neurais complexas para recriar a fala a partir de gravações cerebrais e depois usou essa recriação para analisar os processos que impulsionam a fala humana. Eles detalharam suas novas descobertas em um novo artigo publicado no Anais da Academia Nacional de Ciências (PNAS).
A produção da fala humana é um comportamento complexo que envolve controle antecipado de comandos motores, bem como processamento de feedback da fala autoproduzida. Esses processos exigem o envolvimento de múltiplas redes cerebrais em conjunto. No entanto, tem sido difícil dissociar o grau e o momento do recrutamento cortical para o controle motor versus o processamento sensorial gerado pela produção da fala.
Num novo artigo, os investigadores conseguiram desembaraçar com sucesso os intrincados processos de feedback e feedforward durante a produção da fala. Utilizando uma arquitetura inovadora de aprendizagem profunda em gravações neurocirúrgicas humanas, a equipe empregou um sintetizador de fala diferenciável baseado em regras para decodificar parâmetros de fala a partir de sinais corticais. Ao implementar arquiteturas de redes neurais que distinguem entre causal (usando sinais neurais atuais e passados para decodificar a fala atual), anticausal (usando sinais neurais atuais e futuros) ou uma combinação de ambas as convoluções temporais (não causais), os pesquisadores foram capazes de analisar meticulosamente as contribuições do feedforward e do feedback na produção da fala.
“Essa abordagem nos permitiu desembaraçar o processamento de sinais neurais de feedforward e de feedback que ocorrem simultaneamente enquanto produzimos fala e feedback sensorial de nossa própria voz”, diz Flinker.
Esta abordagem de ponta não apenas decodificou parâmetros de fala interpretáveis, mas também forneceu insights sobre os campos receptivos temporais das regiões corticais recrutadas. Notavelmente, as descobertas desafiam as noções predominantes que segregam o feedback e as redes corticais feedforward. As análises revelaram uma arquitetura diferenciada de feedback misto e processamento feedforward, abrangendo os córtices frontal e temporal. Esta nova perspectiva, combinada com um desempenho excepcional de decodificação de fala, marca um avanço significativo na nossa compreensão dos intrincados mecanismos neurais subjacentes à produção da fala.
Os pesquisadores usaram essa nova perspectiva para informar o seu próprio desenvolvimento de próteses que podem ler a atividade cerebral e decodificá-la diretamente na fala. Embora muitos investigadores estejam a trabalhar no desenvolvimento de tais dispositivos, o protótipo da NYU tem uma diferença fundamental: é capaz de recriar a voz do paciente, utilizando apenas um pequeno conjunto de dados de gravações, num grau notável. O resultado pode ser que os pacientes não recuperem a voz depois de perdê-la – eles terão deles voz de volta. Isso se deve a uma rede neural profunda que leva em consideração um espaço auditivo latente e pode ser treinada em apenas algumas amostras de uma voz individual, como um vídeo do YouTube ou uma gravação de Zoom.
Para coletar os dados, os pesquisadores recorreram a um grupo de pacientes com epilepsia refratária, atualmente intratável com medicamentos. Esses pacientes têm uma grade de eletrodos subdurais de EEG implantados em seus cérebros por um período de uma semana para monitorar suas condições, e consentiram com 64 eletrodos menores adicionais intercalados entre os eletrodos clínicos regulares. Eles forneceram aos pesquisadores informações importantes sobre a atividade cerebral durante o ato de produção da fala.
Além de Flinker e Wang, os pesquisadores incluem Ran Wang, Xupeng Chen e Amirhossein Khalilian-Gourtani do Departamento de Engenharia Elétrica e de Computação da NYU Tandon, Leyao Yu do Departamento de Engenharia Biomédica, Patricia Dugan, Daniel Friedman e Orrin Devinsky da Neurologia Grossman da NYU. Departamento, e Werner Doyle do departamento de Neurocirurgia.
Este artigo foi o resultado de uma doação de US$ 850.000 da NSF destinada ao desenvolvimento de decodificadores neurais para processamento de linguagem e desenvolvimento de modelos de conectividade direcionada, bem como de doações do NIH R01NS109367, R01NS115929 e R01DC018805. Agora, os pesquisadores ganharam US$ 950.000 adicionais para continuar este trabalho, financiado conjuntamente pelo programa NSF Collaborative Research in Computational Neuroscience (CRCNS) e pelo Programa de Engenharia de Deficiência e Reabilitação (DARE). Os fundos apoiarão o desenvolvimento de abordagens computacionais que permitirão uma compreensão mais profunda da neurobiologia da linguagem e traduzirão em novas aplicações clínicas para a fala e a linguagem.
.