Estudos/Pesquisa

Os modelos de IA são poderosos, mas são biologicamente plausíveis?

.

As redes neurais artificiais, modelos onipresentes de aprendizado de máquina que podem ser treinados para concluir muitas tarefas, são assim chamadas porque sua arquitetura é inspirada na maneira como os neurônios biológicos processam informações no cérebro humano.

Cerca de seis anos atrás, os cientistas descobriram um novo tipo de modelo de rede neural mais poderoso, conhecido como transformador. Esses modelos podem alcançar um desempenho sem precedentes, como gerar texto a partir de prompts com precisão quase humana. Um transformador é a base de sistemas de IA como ChatGPT e Bard, por exemplo. Embora incrivelmente eficazes, os transformadores também são misteriosos: ao contrário de outros modelos de rede neural inspirados no cérebro, não ficou claro como construí-los usando componentes biológicos.

Agora, pesquisadores do MIT, do MIT-IBM Watson AI Lab e da Harvard Medical School produziram uma hipótese que pode explicar como um transformador pode ser construído usando elementos biológicos no cérebro. Eles sugerem que uma rede biológica composta de neurônios e outras células cerebrais chamadas astrócitos poderia realizar a mesma computação central que um transformador.

Pesquisas recentes mostraram que os astrócitos, células não neuronais abundantes no cérebro, se comunicam com os neurônios e desempenham um papel em alguns processos fisiológicos, como a regulação do fluxo sanguíneo. Mas os cientistas ainda não têm uma compreensão clara do que essas células fazem computacionalmente.

Com o novo estudo, publicado esta semana em formato de acesso aberto no Anais da Academia Nacional de Ciênciasos pesquisadores exploraram o papel que os astrócitos desempenham no cérebro de uma perspectiva computacional e criaram um modelo matemático que mostra como eles poderiam ser usados, junto com os neurônios, para construir um transformador biologicamente plausível.

A hipótese deles fornece insights que podem desencadear futuras pesquisas em neurociência sobre como o cérebro humano funciona. Ao mesmo tempo, pode ajudar os pesquisadores de aprendizado de máquina a explicar por que os transformadores são tão bem-sucedidos em um conjunto diversificado de tarefas complexas.

“O cérebro é muito superior até mesmo às melhores redes neurais artificiais que desenvolvemos, mas não sabemos exatamente como o cérebro funciona. Há valor científico em pensar sobre conexões entre hardware biológico e redes de inteligência artificial em grande escala. Isso é neurociência para IA e IA para neurociência”, diz Dmitry Krotov, membro da equipe de pesquisa do MIT-IBM Watson AI Lab e autor sênior do trabalho de pesquisa.

Juntando-se a Krotov no artigo estão o autor principal Leo Kozachkov, pós-doutorado no Departamento de Cérebro e Ciências Cognitivas do MIT; e Ksenia V. Kastanenka, professora assistente de neurobiologia na Harvard Medical School e pesquisadora assistente no Massachusetts General Research Institute.

Uma impossibilidade biológica torna-se plausível

Os transformadores operam de maneira diferente de outros modelos de rede neural. Por exemplo, uma rede neural recorrente treinada para processamento de linguagem natural compararia cada palavra em uma frase com um estado interno determinado pelas palavras anteriores. Um transformador, por outro lado, compara todas as palavras da frase de uma só vez para gerar uma previsão, um processo chamado autoatenção.

Para que a auto-atenção funcione, o transformador deve manter todas as palavras prontas em alguma forma de memória, explica Krotov, mas isso não parecia biologicamente possível devido à forma como os neurônios se comunicam.

No entanto, alguns anos atrás, cientistas que estudavam um tipo ligeiramente diferente de modelo de aprendizado de máquina (conhecido como Memória Associada Densa) perceberam que esse mecanismo de autoatenção poderia ocorrer no cérebro, mas apenas se houvesse comunicação entre pelo menos três neurônios.

“O número três realmente me chamou a atenção porque é sabido na neurociência que essas células chamadas astrócitos, que não são neurônios, formam conexões de três vias com os neurônios, chamadas de sinapses tripartidas”, diz Kozachkov.

Quando dois neurônios se comunicam, um neurônio pré-sináptico envia substâncias químicas chamadas neurotransmissores através da sinapse que o conecta a um neurônio pós-sináptico. Às vezes, um astrócitos também está conectado – ele envolve um tentáculo longo e fino ao redor da sinapse, criando uma sinapse tripartida (em três partes). Um astrócitos pode formar milhões de sinapses tripartidas.

O astrócitos coleta alguns neurotransmissores que fluem através da junção sináptica. Em algum momento, o astrócitos pode sinalizar de volta para os neurônios. Como os astrócitos operam em uma escala de tempo muito maior do que os neurônios – eles criam sinais elevando lentamente sua resposta ao cálcio e diminuindo-a – essas células podem reter e integrar as informações que lhes são comunicadas pelos neurônios. Dessa forma, os astrócitos podem formar uma espécie de buffer de memória, diz Krotov.

“Se você pensar sobre isso dessa perspectiva, então os astrócitos são extremamente naturais para precisamente a computação que precisamos para realizar a operação de atenção dentro dos transformadores”, acrescenta.

Construindo uma rede de neurônios-astrócitos

Com essa percepção, os pesquisadores formularam sua hipótese de que os astrócitos poderiam desempenhar um papel na forma como os transformadores computam. Em seguida, eles começaram a construir um modelo matemático de uma rede de neurônios-astrócitos que funcionaria como um transformador.

Eles pegaram a matemática central que compreende um transformador e desenvolveram modelos biofísicos simples do que os astrócitos e neurônios fazem quando se comunicam no cérebro, com base em um mergulho profundo na literatura e na orientação de colaboradores neurocientistas.

Em seguida, eles combinaram os modelos de certas maneiras até chegarem a uma equação de uma rede de neurônios-astrócitos que descreve a autoatenção de um transformador.

“Às vezes, descobrimos que certas coisas que queríamos que fossem verdadeiras não podiam ser implementadas de forma plausível. Portanto, tivemos que pensar em soluções alternativas. Há algumas coisas no documento que são aproximações muito cuidadosas da arquitetura do transformador para poder corresponder de uma forma biologicamente plausível”, diz Kozachkov.

Por meio de sua análise, os pesquisadores mostraram que sua rede biofísica de neurônios-astrócitos corresponde teoricamente a um transformador. Além disso, eles realizaram simulações numéricas alimentando imagens e parágrafos de texto para modelos transformadores e comparando as respostas com as de sua rede simulada de neurônios-astrócitos. Ambos responderam aos prompts de forma semelhante, confirmando seu modelo teórico.

O próximo passo para os pesquisadores é dar o salto da teoria para a prática. Eles esperam comparar as previsões do modelo com aquelas que foram observadas em experimentos biológicos e usar esse conhecimento para refinar, ou possivelmente refutar, sua hipótese.

Além disso, uma implicação de seu estudo é que os astrócitos podem estar envolvidos na memória de longo prazo, já que a rede precisa armazenar informações para poder agir sobre elas no futuro. Pesquisas adicionais poderiam investigar essa ideia ainda mais, diz Krotov.

“Por várias razões, os astrócitos são extremamente importantes para a cognição e o comportamento e operam de maneiras fundamentalmente diferentes dos neurônios. Minha maior esperança para este artigo é que ele catalise um monte de pesquisas em neurociência computacional em células gliais e, em particular, , astrócitos”, acrescenta Kozachkov.

Esta pesquisa foi apoiada, em parte, pela BrightFocus Foundation e pelo National Institute of Health.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo