.
Os cientistas forneceram evidências para o controle cognitivo do aprendizado em ratos, mostrando que eles podem estimar o valor de longo prazo do aprendizado e adaptar sua estratégia de tomada de decisão para aproveitar as oportunidades de aprendizado.
As descobertas sugerem que, ao levar mais tempo para tomar uma decisão, os ratos podem sacrificar recompensas imediatas para aumentar seus resultados de aprendizado e obter maiores recompensas durante todo o curso de uma tarefa. Os resultados são publicados hoje na eLife.
Um princípio estabelecido da neurociência comportamental é o trade-off velocidade-precisão, que é visto em muitas espécies, de roedores a primatas. O princípio descreve a relação entre a disposição de um indivíduo de responder lentamente e cometer menos erros em comparação com sua disposição de responder rapidamente e correr o risco de cometer mais erros.
“Muitos estudos nesta área se concentraram no trade-off velocidade-precisão, sem levar em conta os resultados de aprendizagem”, diz o principal autor Javier Masís, que na época era aluno de doutorado no Departamento de Biologia Molecular e Celular, e o Center for Brain Science, Harvard University, EUA, e agora é bolsista presidencial de pós-doutorado no Princeton Neuroscience Institute da Princeton University, EUA. “Nosso objetivo era investigar o difícil problema de escolha intertemporal que existe quando você tem a possibilidade de melhorar seu comportamento por meio do aprendizado”.
Para seu estudo, Masís e seus colegas procuraram primeiro estabelecer se os ratos eram capazes de resolver o trade-off velocidade-precisão. A equipe montou um experimento em que ratos, ao ver um dos dois objetos visuais que podiam variar em tamanho e rotação, decidiam se o objeto visual era o que correspondia a uma resposta esquerda ou direita, e lambiam o toque correspondente. -porta sensível uma vez que eles decidiram. Se os ratos lamberam a porta correta, eles foram recompensados com água, e se lamberam a porta errada, receberam um tempo limite.
A equipe investigou a relação entre a taxa de erro (ER) e o tempo de reação (RT) durante esses testes, usando o Drift-Diffusion Model (DDM) – um modelo padrão de tomada de decisão em psicologia e neurociência no qual o tomador de decisão acumula evidências por meio de tempo até que o nível de evidência para uma alternativa atinja um limite. O nível de limite do sujeito controla a compensação de velocidade e precisão. Usar um limite baixo produz respostas rápidas, mas propensas a erros, enquanto um limite alto produz respostas lentas, mas precisas. Para cada nível de dificuldade, no entanto, há um melhor limite para definir que equilibra de maneira ideal velocidade e precisão, permitindo que o tomador de decisão maximize sua taxa de recompensa instantânea (iRR). Através das dificuldades, esse comportamento pode ser resumido por meio de uma relação entre ER e RT chamada de curva de desempenho ideal (OPC). Depois de aprender a tarefa completamente, mais da metade dos ratos treinados atingiram o OPC, demonstrando que ratos bem treinados resolvem a relação entre velocidade e precisão.
No início do treinamento, porém, todos os ratos desistiram de mais de 20% de seu iRR, enquanto no final, a maioria dos ratos quase maximizou o iRR. Isso levantou a questão: se os ratos maximizam as recompensas instantâneas ao final do aprendizado, o que governa sua estratégia no início do aprendizado?
Para responder a isso, a equipe adaptou o DDM como uma rede neural recorrente (RNN) que pode aprender com o tempo e desenvolveu o Learning Drift-Diffusion Model (LDDM), permitindo-lhes investigar como o aprendizado perceptivo de longo prazo em muitos ensaios é influenciado por a escolha do tempo de decisão em tentativas individuais. O modelo foi projetado com a simplicidade em mente, para destacar as principais compensações qualitativas entre velocidade de aprendizado e estratégia de decisão. As análises deste modelo sugeriram que os ratos adotam uma estratégia ‘não gananciosa’ que troca as recompensas iniciais para priorizar o aprendizado e, portanto, maximizar a recompensa total ao longo da tarefa. Eles também demonstraram que tempos de reação iniciais mais longos levam a um aprendizado mais rápido e maior recompensa, tanto em um ambiente experimental quanto simulado.
Os autores pedem mais estudos para consolidar esses achados. O estudo atual é limitado pelo uso do DDM para estimar o aprendizado aprimorado. O DDM e, portanto, o LDDM, é um modelo simples que é uma ferramenta teórica poderosa para entender tipos específicos de comportamento de escolha simples que podem ser estudados em laboratório, mas não é capaz de descrever quantitativamente um comportamento de tomada de decisão mais naturalista. Além disso, o estudo se concentra em uma tarefa de percepção visual; os autores, portanto, incentivam o trabalho adicional com outras tarefas que podem ser aprendidas em dificuldades, modalidades sensoriais e organismos.
“Nossos resultados fornecem uma nova visão da relação entre velocidade e precisão, mostrando que o comportamento de tomada de decisão perceptual é fortemente moldado pela exigência rigorosa de aprender rapidamente”, afirma o autor sênior Andrew Saxe, ex-pesquisador associado de pós-doutorado no Departamento de Psicologia Experimental, Universidade de Oxford, Reino Unido, e agora Sir Henry Dale Fellow e Professor Associado na Gatsby Computational Unit e Sainsbury Wellcome Center, University College London, Reino Unido.
“Um princípio-chave que nosso estudo propõe”, explica Javier Masís, “é que os agentes naturais levam em conta o fato de que podem melhorar por meio do aprendizado e que podem e moldam a taxa dessa melhoria por meio de suas escolhas. o mundo em que vivemos não estacionário; nós também não são estacionários, e levamos isso em consideração à medida que nos movemos pelo mundo fazendo escolhas.” “Você não aprende piano mexendo nas teclas ocasionalmente”, acrescenta Saxe. “Você decide praticar e pratica em detrimento de outras atividades mais imediatamente gratificantes, porque você sabe que vai melhorar e provavelmente valerá a pena no final.”
.