.
Pesquisadores da UC San Francisco e da UC Berkeley desenvolveram uma interface cérebro-computador (BCI) que permitiu que uma mulher com paralisia grave devido a um acidente vascular cerebral no tronco cerebral falasse através de um avatar digital.
É a primeira vez que a fala ou as expressões faciais são sintetizadas a partir de sinais cerebrais. O sistema também pode decodificar esses sinais em texto a quase 80 palavras por minuto, uma grande melhoria em relação à tecnologia disponível comercialmente.
Edward Chang, MD, presidente de cirurgia neurológica da UCSF, que trabalhou na tecnologia, conhecida como interface cérebro-computador, ou BCI, por mais de uma década, espera que este último avanço da pesquisa, publicado em 23 de agosto de 2023, em Naturezalevará a um sistema aprovado pela FDA que permitirá a fala a partir de sinais cerebrais em um futuro próximo.
“Nosso objetivo é restaurar uma forma de comunicação plena e incorporada, que é realmente a maneira mais natural de conversarmos com outras pessoas”, disse Chang, que é membro do Instituto Weill de Neurociências da UCSF e professora ilustre Jeanne Robertson em Psiquiatria. “Esses avanços nos aproximam muito mais de tornar esta solução uma solução real para os pacientes”.
A equipe de Chang demonstrou anteriormente que era possível decodificar sinais cerebrais em texto em um homem que também havia sofrido um derrame cerebral muitos anos antes. O presente estudo demonstra algo mais ambicioso: decodificar sinais cerebrais na riqueza da fala, juntamente com os movimentos que animam o rosto de uma pessoa durante uma conversa.
Chang implantou um retângulo fino como papel de 253 eletrodos na superfície do cérebro da mulher, em áreas que sua equipe descobriu serem críticas para a fala. Os eletrodos interceptaram os sinais cerebrais que, se não fosse pelo derrame, teriam ido para os músculos dela, língua, mandíbula e laringe, bem como para o rosto. Um cabo, conectado a uma porta fixada em sua cabeça, conectava os eletrodos a um banco de computadores.
Durante semanas, a participante trabalhou com a equipe para treinar os algoritmos de inteligência artificial do sistema para reconhecer seus sinais cerebrais únicos para a fala. Isso envolveu a repetição repetida de frases diferentes de um vocabulário de conversação de 1.024 palavras, até que o computador reconhecesse os padrões de atividade cerebral associados aos sons.
Em vez de treinar a IA para reconhecer palavras inteiras, os pesquisadores criaram um sistema que decodifica palavras a partir de fonemas. Estas são as subunidades da fala que formam as palavras faladas da mesma forma que as letras formam as palavras escritas. “Olá”, por exemplo, contém quatro fonemas: “HH”, “AH”, “L” e “OW”.
Usando esta abordagem, o computador só precisava aprender 39 fonemas para decifrar qualquer palavra em inglês. Isso melhorou a precisão do sistema e o tornou três vezes mais rápido.
“A precisão, velocidade e vocabulário são cruciais”, disse Sean Metzger, que desenvolveu o decodificador de texto com Alex Silva, ambos estudantes de pós-graduação no Programa Conjunto de Bioengenharia da UC Berkeley e da UCSF. “É o que dá ao usuário o potencial, com o tempo, de se comunicar quase tão rápido quanto nós e de ter conversas muito mais naturalistas e normais.”
Para criar a voz, a equipe desenvolveu um algoritmo para sintetizar a fala, que foi personalizado para soar como a voz dela antes da lesão, usando uma gravação dela falando em seu casamento.
A equipe animou o avatar com a ajuda de um software que simula e anima os movimentos musculares do rosto, desenvolvido pela Speech Graphics, empresa que faz animações faciais baseadas em IA. Os pesquisadores criaram processos personalizados de aprendizado de máquina que permitiram que o software da empresa se combinasse com os sinais enviados pelo cérebro da mulher enquanto ela tentava falar e os convertesse nos movimentos do rosto do avatar, fazendo a mandíbula abrir e fechar, os lábios se projetarem. e a bolsa e a língua sobem e descem, assim como os movimentos faciais de felicidade, tristeza e surpresa.
“Estamos compensando as conexões entre o cérebro e o trato vocal que foram cortadas pelo derrame”, disse Kaylo Littlejohn, estudante de pós-graduação que trabalha com Chang e Gopala Anumanchipalli, PhD, professor de engenharia elétrica e ciências da computação na UC. Berkeley. “Quando o sujeito usou pela primeira vez esse sistema para falar e mover o rosto do avatar em conjunto, eu sabia que isso seria algo que teria um impacto real”.
Um próximo passo importante para a equipe é criar uma versão sem fio que não exija que o usuário esteja fisicamente conectado à BCI.
“Dar às pessoas a capacidade de controlar livremente os seus próprios computadores e telefones com esta tecnologia teria efeitos profundos na sua independência e interações sociais”, disse o co-autor David Moses, PhD, professor adjunto em cirurgia neurológica.
.