.
As descobertas da neurociência, que vão desde a natureza da memória até aos tratamentos para doenças, dependeram da leitura das mentes dos ratos, por isso os investigadores precisam de compreender verdadeiramente o que o comportamento dos roedores lhes diz durante as experiências. Num novo estudo que examina a aprendizagem a partir da recompensa, os investigadores do MIT decifraram alguns comportamentos inicialmente misteriosos dos ratos, produzindo novas ideias sobre como os ratos pensam e uma ferramenta matemática para auxiliar pesquisas futuras.
A tarefa que os ratos deveriam dominar é simples: girar uma roda para a esquerda ou para a direita para receber uma recompensa e então reconhecer quando a direção da recompensa muda. Quando pessoas neurotípicas jogam esses jogos de “aprendizado reverso”, elas rapidamente inferem a abordagem ideal: manter a direção que funciona até que isso não funcione e então mudar imediatamente. Notavelmente, as pessoas com esquizofrenia lutam com a tarefa. No novo estudo em Biologia Computacional PLOSos ratos surpreenderam os cientistas ao mostrar que, embora fossem capazes de aprender a estratégia “ganhar-ficar, perder-mudar”, recusaram-se a adotá-la totalmente.
“Não é que os ratos não possam formar um modelo deste ambiente baseado em inferências – eles podem”, disse o autor correspondente Mriganka Sur, professor Newton no Instituto Picower de Aprendizagem e Memória e no Departamento de Cérebro e Ciências Cognitivas (BCS) do MIT. “O surpreendente é que eles não persistem. Mesmo em um único bloco do jogo onde você sabe que a recompensa é 100% de um lado, de vez em quando eles tentam o outro lado.”
Embora o motivo do rato se afastar da estratégia ideal possa ser devido a uma falha em mantê-la na memória, disse o autor principal e estudante de pós-graduação do Sur Lab, Nhat Le, outra possibilidade é que os ratos não se comprometam com o “ganhar-ficar, perder”. -shift” porque não confiam que as suas circunstâncias permanecerão estáveis ou previsíveis. Em vez disso, poderão desviar-se do regime ideal para testar se as regras mudaram. Afinal, os cenários naturais raramente são estáveis ou previsíveis.
“Gostaria de pensar que os ratos são mais espertos do que acreditamos”, disse Le.
Mas independentemente do motivo que possa fazer com que os ratos misturem estratégias, acrescentou o coautor sênior Mehrdad Jazayeri, professor associado do BCS e do Instituto McGovern de Pesquisa do Cérebro, é importante que os pesquisadores reconheçam que o fazem e sejam capazes de dizer quando e como eles estão escolhendo uma estratégia ou outra.
“Este estudo destaca o fato de que, ao contrário do que se sabe, os ratos que realizam tarefas de laboratório não adotam necessariamente uma estratégia estacionária e oferece uma abordagem computacionalmente rigorosa para detectar e quantificar tais não estacionariedades”, disse ele. “Essa capacidade é importante porque quando os pesquisadores registram a atividade neural, sua interpretação dos algoritmos e mecanismos subjacentes pode ser inválida quando não levam em conta as estratégias de mudança dos animais”.
Rastreando o pensamento
A equipe de pesquisa, que também inclui o coautor Murat Yildirim, ex-pós-doutorado no laboratório Sur e agora professor assistente no Cleveland Clinic Lerner Research Institute, inicialmente esperava que os ratos adotassem uma estratégia ou outra. Eles simularam os resultados que esperariam ver se os ratos adotassem a estratégia ideal de inferir uma regra sobre a tarefa ou de examinar de forma mais aleatória se as curvas à esquerda ou à direita estavam sendo recompensadas. O comportamento do mouse na tarefa, mesmo depois de dias, variou bastante, mas nunca se assemelhou aos resultados simulados por apenas uma estratégia.
Em graus diferentes e individuais, o desempenho do mouse na tarefa refletiu a variação em três parâmetros: a rapidez com que eles mudaram de direção após a mudança da regra, quanto tempo levaram para fazer a transição para a nova direção e quão leais eles permaneceram à nova direção. Em 21 ratos, os dados brutos representaram uma diversidade surpreendente de resultados em uma tarefa que os humanos neurotípicos otimizam uniformemente. Mas os ratos claramente não estavam indefesos. Seu desempenho médio melhorou significativamente ao longo do tempo, embora tenha ficado abaixo do nível ideal.
Na tarefa, o lado recompensado trocava a cada 15-25 turnos. A equipe percebeu que os ratos estavam usando mais de uma estratégia em cada “bloco” do jogo, em vez de apenas inferir a regra simples e otimizar com base nessa inferência. Para desembaraçar quando os ratos estavam empregando essa estratégia ou outra, a equipe aproveitou uma estrutura analítica chamada Modelo Oculto de Markov (HMM), que pode descobrir computacionalmente quando um estado invisível está produzindo um resultado versus outro estado invisível. Le compara isso ao que um jurado de um programa de culinária pode fazer: inferir qual chef concorrente fez qual versão de um prato com base nos padrões de cada prato de comida à sua frente.
Antes que a equipe pudesse usar um HMM para decifrar os resultados de desempenho do mouse, eles tiveram que adaptá-lo. Um HMM típico pode ser aplicado a escolhas individuais de mouse, mas aqui a equipe o modificou para explicar as transições de escolha ao longo de blocos inteiros. Eles apelidaram seu modelo modificado de blockHMM. Simulações computacionais de desempenho de tarefas utilizando o blocoHMM mostraram que o algoritmo é capaz de inferir os verdadeiros estados ocultos de um agente artificial. Os autores então usaram essa técnica para mostrar que os ratos combinavam persistentemente múltiplas estratégias, alcançando níveis variados de desempenho.
“Verificamos que cada animal executa uma mistura de comportamentos de múltiplos regimes, em vez de um comportamento de um único domínio”, escreveram Le e seus coautores. “Na verdade, os ratos 17/21 usaram uma combinação de modos de comportamento de baixo, médio e alto desempenho.”
Uma análise mais aprofundada revelou que as estratégias em andamento eram de fato a estratégia de inferência de regras “correta” e uma estratégia mais exploratória consistente com opções de teste aleatório para obter feedback passo a passo.
Agora que os pesquisadores decodificaram a abordagem peculiar que os ratos adotam para a aprendizagem reversa, eles planejam examinar mais profundamente o cérebro para entender quais regiões e circuitos cerebrais estão envolvidos. Ao observar a atividade das células cerebrais durante a tarefa, eles esperam discernir o que está por trás das decisões que os ratos tomam para mudar de estratégia.
Ao examinar detalhadamente os circuitos de aprendizagem reversa, disse Sur, é possível que a equipe obtenha insights que possam ajudar a explicar por que as pessoas com esquizofrenia apresentam desempenho diminuído em tarefas de aprendizagem reversa. Sur acrescentou que algumas pessoas com transtornos do espectro do autismo também persistem com comportamentos recentemente não recompensados por mais tempo do que pessoas neurotípicas, então seu laboratório também terá esse fenômeno em mente enquanto investigam.
Yildirim também está interessado em examinar possíveis conexões clínicas.
“Esse paradigma de aprendizagem reversa me fascina porque quero usá-lo em meu laboratório com vários modelos pré-clínicos de distúrbios neurológicos”, disse ele. “O próximo passo para nós é determinar os mecanismos cerebrais subjacentes a estas diferenças nas estratégias comportamentais e se podemos manipular essas estratégias”.
O financiamento para o estudo veio dos Institutos Nacionais de Saúde, do Escritório de Pesquisa do Exército, do Prêmio Paul e Lilah Newton de Pesquisa em Ciência do Cérebro, da Iniciativa de Ciências da Vida de Massachusetts, do Instituto Picower de Aprendizagem e Memória e da Fundação JPB.
.