.
Um decodificador baseado em IA que pode traduzir a atividade cerebral em um fluxo contínuo de texto foi desenvolvido, em uma inovação que permite que os pensamentos de uma pessoa sejam lidos de forma não invasiva pela primeira vez.
O decodificador pode reconstruir a fala com incrível precisão enquanto as pessoas ouvem uma história – ou até mesmo silenciosamente imaginam uma – usando apenas dados de ressonância magnética funcional. Os sistemas de decodificação de linguagem anteriores exigiam implantes cirúrgicos, e o avanço mais recente levanta a perspectiva de novas maneiras de restaurar a fala em pacientes que lutam para se comunicar devido a um derrame ou doença do neurônio motor.
Alexander Huth, um neurocientista que liderou o trabalho na Universidade do Texas em Austin, disse: “Ficamos meio chocados com o fato de funcionar tão bem. Eu tenho trabalhado nisso por 15 anos… então foi chocante e emocionante quando finalmente funcionou.”
A conquista supera uma limitação fundamental do fMRI, que é que, embora a técnica possa mapear a atividade cerebral para um local específico com resolução incrivelmente alta, há um intervalo de tempo inerente, que impossibilita o rastreamento da atividade em tempo real.
O atraso existe porque as varreduras de fMRI medem a resposta do fluxo sanguíneo à atividade cerebral, que atinge o pico e retorna à linha de base em cerca de 10 segundos, o que significa que mesmo o scanner mais poderoso não pode melhorar isso. “É um substituto barulhento e lento para a atividade neural”, disse Huth.
Esse limite rígido prejudicou a capacidade de interpretar a atividade cerebral em resposta à fala natural porque fornece uma “mistura de informações” espalhada por alguns segundos.
No entanto, o advento de grandes modelos de linguagem – o tipo de IA que sustenta o ChatGPT da OpenAI – forneceu uma nova maneira de entrar. Esses modelos são capazes de representar, em números, o significado semântico da fala, permitindo que os cientistas observem quais padrões de atividade neuronal correspondia a sequências de palavras com um significado particular, em vez de tentar ler a atividade palavra por palavra.
O processo de aprendizagem foi intensivo: três voluntários foram obrigados a ficar em um scanner por 16 horas cada, ouvindo podcasts. O decodificador foi treinado para combinar a atividade cerebral com o significado usando um grande modelo de linguagem, GPT-1, um precursor do ChatGPT.
Mais tarde, os mesmos participantes foram escaneados ouvindo uma nova história ou imaginando contar uma história e o decodificador foi usado para gerar texto apenas a partir da atividade cerebral. Cerca de metade do tempo, o texto se aproximava – e às vezes precisamente – correspondia aos significados pretendidos das palavras originais.
“Nosso sistema funciona no nível de ideias, semântica, significado”, disse Huth. “Esta é a razão pela qual o que divulgamos não são as palavras exatas, é a essência.”
Por exemplo, quando um participante ouviu as palavras “Ainda não tenho carteira de motorista”, o decodificador as traduziu como “Ela ainda nem começou a aprender a dirigir”. Em outro caso, as palavras “Não sabia se gritava, chorava ou fugia. Em vez disso, eu disse: ‘Deixe-me em paz!’” foram decodificadas como “Começou a gritar e chorar, e então ela apenas disse: ‘Eu disse para você me deixar em paz.’”
Os participantes também foram solicitados a assistir a quatro vídeos curtos e silenciosos enquanto estavam no scanner, e o decodificador foi capaz de usar sua atividade cerebral para descrever com precisão parte do conteúdo, informou o artigo da Nature Neuroscience.
“Para um método não invasivo, este é um verdadeiro avanço em comparação com o que foi feito antes, que normalmente são palavras únicas ou frases curtas”, disse Huth.
Às vezes, o decodificador entendia o lado errado do bastão e lutava com certos aspectos da linguagem, incluindo pronomes. “Ele não sabe se é primeira pessoa ou terceira pessoa, homem ou mulher”, disse Huth. “Por que é ruim nisso, não sabemos.”
O decodificador era personalizado e quando o modelo era testado em outra pessoa a leitura era ininteligível. Também foi possível para os participantes nos quais o decodificador foi treinado frustrar o sistema, por exemplo, pensando em animais ou imaginando silenciosamente outra história.
Jerry Tang, estudante de doutorado na Universidade do Texas em Austin e coautor, disse: “Levamos muito a sério as preocupações de que ele possa ser usado para propósitos ruins e trabalhamos para evitar isso. Queremos garantir que as pessoas usem esse tipo de tecnologia apenas quando quiserem e que isso as ajude.”
O professor Tim Behrens, um neurocientista computacional da Universidade de Oxford que não esteve envolvido no trabalho, descreveu-o como “tecnicamente extremamente impressionante” e disse que abriu uma série de possibilidades experimentais, incluindo a leitura de pensamentos de alguém sonhando ou a investigação de como novas ideias surgem da atividade cerebral de fundo. “Esses modelos generativos permitem que você veja o que está no cérebro em um novo nível”, disse ele. “Isso significa que você pode realmente ler algo profundo no fMRI.”
O professor Shinji Nishimoto, da Universidade de Osaka, pioneiro na reconstrução de imagens visuais da atividade cerebral, descreveu o artigo como um “avanço significativo”. “O artigo mostrou que o cérebro representa informações contínuas de linguagem durante a percepção e a imaginação de maneira compatível”, disse ele. “Esta é uma descoberta não trivial e pode ser uma base para o desenvolvimento de interfaces cérebro-computador.
A equipe agora espera avaliar se a técnica pode ser aplicada a outros sistemas de imagem cerebral mais portáteis, como a espectroscopia funcional de infravermelho próximo (fNIRS).
.