.
Um novo sistema de inteligência artificial chamado decodificador semântico pode traduzir a atividade cerebral de uma pessoa – enquanto ouve uma história ou silenciosamente imagina contar uma história – em um fluxo contínuo de texto. O sistema desenvolvido por pesquisadores da Universidade do Texas em Austin pode ajudar pessoas mentalmente conscientes, mas incapazes de falar fisicamente, como aquelas debilitadas por derrames, a se comunicarem de forma inteligível novamente.
O estudo, publicado na revista Natureza Neurociência, foi liderado por Jerry Tang, estudante de doutorado em ciência da computação, e Alex Huth, professor assistente de neurociência e ciência da computação na UT Austin. O trabalho depende em parte de um modelo de transformador, semelhante aos que alimentam o ChatGPT da Open AI e o Bard do Google.
Ao contrário de outros sistemas de decodificação de linguagem em desenvolvimento, este sistema não exige que os sujeitos tenham implantes cirúrgicos, tornando o processo não invasivo. Os participantes também não precisam usar apenas palavras de uma lista prescrita. A atividade cerebral é medida usando um scanner fMRI após treinamento extensivo do decodificador, no qual o indivíduo ouve horas de podcasts no scanner. Mais tarde, desde que o participante esteja aberto a ter seus pensamentos decodificados, ouvir uma nova história ou imaginar contar uma história permite que a máquina gere o texto correspondente apenas a partir da atividade cerebral.
“Para um método não invasivo, este é um verdadeiro avanço em comparação com o que foi feito antes, que normalmente são palavras únicas ou frases curtas”, disse Huth. “Estamos obtendo o modelo para decodificar linguagem contínua por longos períodos de tempo com ideias complicadas”.
O resultado não é uma transcrição palavra por palavra. Em vez disso, os pesquisadores o projetaram para capturar a essência do que está sendo dito ou pensado, embora imperfeitamente. Cerca de metade do tempo, quando o decodificador foi treinado para monitorar a atividade cerebral de um participante, a máquina produz texto que se aproxima (e às vezes com precisão) dos significados pretendidos das palavras originais.
Por exemplo, em experimentos, um participante ouvindo um palestrante dizer: “Ainda não tenho minha carteira de motorista” teve seus pensamentos traduzidos como: “Ela ainda nem começou a aprender a dirigir”. Ouvir as palavras “Eu não sabia se gritava, chorava ou fugia. Em vez disso, eu disse: ‘Deixe-me em paz!” Eu disse para você me deixar em paz.’”
Começando com uma versão anterior do artigo que apareceu como uma pré-impressão online, os pesquisadores abordaram questões sobre o potencial uso indevido da tecnologia. O artigo descreve como a decodificação funcionou apenas com participantes cooperativos que participaram voluntariamente do treinamento do decodificador. Os resultados para os indivíduos nos quais o decodificador não foi treinado eram ininteligíveis, e se os participantes nos quais o decodificador foi treinado posteriormente apresentassem resistência – por exemplo, pensando em outros pensamentos – os resultados eram igualmente inutilizáveis.
“Levamos muito a sério a preocupação de que possa ser usado para propósitos ruins e trabalhamos para evitar isso”, disse Tang. “Queremos garantir que as pessoas só usem esses tipos de tecnologias quando quiserem e que isso as ajude.”
Além de fazer com que os participantes ouvissem ou pensassem sobre as histórias, os pesquisadores pediram aos participantes que assistissem a quatro vídeos curtos e silenciosos enquanto estivessem no scanner. O decodificador semântico foi capaz de usar sua atividade cerebral para descrever com precisão certos eventos dos vídeos.
Atualmente, o sistema não é prático para uso fora do laboratório devido à sua dependência do tempo necessário em uma máquina de fMRI. Mas os pesquisadores acham que esse trabalho pode ser transferido para outros sistemas de imagem cerebral mais portáteis, como a espectroscopia funcional de infravermelho próximo (fNIRS).
“O fNIRS mede onde há mais ou menos fluxo sanguíneo no cérebro em diferentes pontos no tempo, o que, ao que parece, é exatamente o mesmo tipo de sinal que o fMRI está medindo”, disse Huth. “Portanto, nosso tipo exato de abordagem deve se traduzir em fNIRS”, embora, observou ele, a resolução com fNIRS seja menor.
Este trabalho foi apoiado pela Whitehall Foundation, Alfred P. Sloan Foundation e Burroughs Wellcome Fund.
Os outros coautores do estudo são Amanda LeBel, ex-assistente de pesquisa no laboratório Huth, e Shailee Jain, estudante de pós-graduação em ciência da computação na UT Austin.
Alexander Huth e Jerry Tang apresentaram um pedido de patente PCT relacionado a este trabalho.
.





