.
Os neurocientistas descobriram como as ações exploratórias permitem que os animais aprendam seu ambiente espacial com mais eficiência. Suas descobertas podem ajudar a criar melhores agentes de IA que podem aprender mais rápido e exigem menos experiência.
Pesquisadores do Sainsbury Wellcome Center e Gatsby Computational Neuroscience Unit da UCL descobriram que as corridas exploratórias instintivas que os animais realizam não são aleatórias. Essas ações intencionais permitem que os ratos aprendam um mapa do mundo com eficiência. O estudo, publicado hoje na neurôniodescreve como os neurocientistas testaram sua hipótese de que as ações exploratórias específicas que os animais realizam, como disparar rapidamente em direção a objetos, são importantes para ajudá-los a aprender como navegar em seu ambiente.
“Existem muitas teorias na psicologia sobre como a realização de certas ações facilita o aprendizado. Neste estudo, testamos se a simples observação de obstáculos em um ambiente era suficiente para aprender sobre eles, ou se ações intencionais e guiadas pelos sentidos ajudam os animais a construir uma capacidade cognitiva mapa do mundo”, disse o professor Tiago Branco, líder do grupo no Sainsbury Wellcome Center e autor correspondente do artigo.
Em trabalhos anteriores, os cientistas do SWC observaram uma correlação entre o quão bem os animais aprendem a contornar um obstáculo e o número de vezes que correram para o objeto. Neste estudo, Philip Shamash, estudante de doutorado do SWC e primeiro autor do artigo, realizou experimentos para testar o impacto de impedir que os animais realizassem corridas exploratórias. Ao expressar uma proteína ativada por luz chamada canalrodopsina em uma parte do córtex motor, Philip foi capaz de usar ferramentas optogenéticas para impedir que os animais iniciassem corridas exploratórias em direção a obstáculos.
A equipe descobriu que, embora os ratos passassem muito tempo observando e farejando obstáculos, se fossem impedidos de correr em direção a eles, eles não aprendiam. Isso mostra que as próprias ações exploratórias instintivas estão ajudando os animais a aprender um mapa de seu ambiente.
Para explorar os algoritmos que o cérebro pode estar usando para aprender, a equipe trabalhou com Sebastian Lee, aluno de doutorado no laboratório de Andrew Saxe no SWC, para executar diferentes modelos de aprendizado por reforço que as pessoas desenvolveram para agentes artificiais e observar qual deles é mais reproduz de perto o comportamento do mouse.
Existem duas classes principais de modelos de aprendizado por reforço: sem modelo e com base em modelo. A equipe descobriu que, sob algumas condições, os ratos agem de maneira livre de modelo, mas sob outras condições, eles parecem ter um modelo do mundo. E assim os pesquisadores implementaram um agente que pode arbitrar entre livre de modelo e baseado em modelo. Não é necessariamente assim que o cérebro do camundongo funciona, mas os ajudou a entender o que é necessário em um algoritmo de aprendizado para explicar o comportamento.
“Um dos problemas da inteligência artificial é que os agentes precisam de muita experiência para aprender alguma coisa. Eles precisam explorar o ambiente milhares de vezes, enquanto um animal real pode aprender um ambiente em menos de dez minutos. Achamos que isso é em parte porque, ao contrário dos agentes artificiais, a exploração dos animais não é aleatória e centra-se em objetos salientes. Este tipo de exploração dirigida torna a aprendizagem mais eficiente e por isso precisam de menos experiência para aprender,” explica o Professor Branco.
Os próximos passos para os pesquisadores são explorar a ligação entre a execução de ações exploratórias e a representação de subobjetivos. A equipe agora está realizando gravações no cérebro para descobrir quais áreas estão envolvidas na representação de subobjetivos e como as ações exploratórias levam à formação das representações.
Esta pesquisa foi financiada por uma Wellcome Senior Research Fellowship (214352/Z/18/Z) e pelo Sainsbury Wellcome Center Core Grant da Gatsby Charitable Foundation e Wellcome (090843/F/09/Z), o Sainsbury Wellcome Center PhD Program e uma bolsa Sir Henry Dale do Wellcome Trust and Royal Society (216386/Z/19/Z).
.