.
A descoberta de novos materiais e medicamentos geralmente envolve um processo manual de tentativa e erro que pode levar décadas e custar milhões de dólares. Para agilizar esse processo, os cientistas costumam usar o aprendizado de máquina para prever propriedades moleculares e restringir as moléculas que precisam sintetizar e testar em laboratório.
Pesquisadores do MIT e do MIT-Watson AI Lab desenvolveram uma nova estrutura unificada que pode prever simultaneamente propriedades moleculares e gerar novas moléculas com muito mais eficiência do que essas abordagens populares de aprendizado profundo.
Para ensinar um modelo de aprendizado de máquina a prever as propriedades biológicas ou mecânicas de uma molécula, os pesquisadores devem mostrar milhões de estruturas moleculares rotuladas – um processo conhecido como treinamento. Devido ao custo de descobrir moléculas e aos desafios de rotular manualmente milhões de estruturas, grandes conjuntos de dados de treinamento costumam ser difíceis de obter, o que limita a eficácia das abordagens de aprendizado de máquina.
Por outro lado, o sistema criado pelos pesquisadores do MIT pode efetivamente prever propriedades moleculares usando apenas uma pequena quantidade de dados. Seu sistema tem uma compreensão subjacente das regras que determinam como os blocos de construção se combinam para produzir moléculas válidas. Essas regras capturam as semelhanças entre as estruturas moleculares, o que ajuda o sistema a gerar novas moléculas e prever suas propriedades de maneira eficiente em termos de dados.
Esse método superou outras abordagens de aprendizado de máquina em conjuntos de dados pequenos e grandes e foi capaz de prever com precisão as propriedades moleculares e gerar moléculas viáveis quando fornecido um conjunto de dados com menos de 100 amostras.
“Nosso objetivo com este projeto é usar alguns métodos baseados em dados para acelerar a descoberta de novas moléculas, para que você possa treinar um modelo para fazer a previsão sem todos esses experimentos de alto custo”, diz o principal autor Minghao Guo, um estudante de pós-graduação em ciência da computação e engenharia elétrica (EECS).
Os co-autores de Guo incluem membros da equipe de pesquisa do MIT-IBM Watson AI Lab, Veronika Thost, Payel Das e Jie Chen; recém-formados pelo MIT, Samuel Song ’23 e Adithya Balachandran ’23; e autor sênior Wojciech Matusik, professor de engenharia elétrica e ciência da computação e membro do MIT-IBM Watson AI Lab, que lidera o Grupo de Design e Fabricação Computacional no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT. A pesquisa será apresentada na Conferência Internacional de Machine Learning.
Aprendendo a linguagem das moléculas
Para obter os melhores resultados com modelos de aprendizado de máquina, os cientistas precisam de conjuntos de dados de treinamento com milhões de moléculas com propriedades semelhantes àquelas que esperam descobrir. Na realidade, esses conjuntos de dados específicos de domínio são geralmente muito pequenos. Assim, os pesquisadores usam modelos que foram pré-treinados em grandes conjuntos de dados de moléculas gerais, que eles aplicam a um conjunto de dados direcionado muito menor. No entanto, como esses modelos não adquiriram muito conhecimento específico do domínio, eles tendem a ter um desempenho ruim.
A equipe do MIT adotou uma abordagem diferente. Eles criaram um sistema de aprendizado de máquina que aprende automaticamente a “linguagem” das moléculas – o que é conhecido como gramática molecular – usando apenas um pequeno conjunto de dados específico de domínio. Ele usa essa gramática para construir moléculas viáveis e prever suas propriedades.
Na teoria da linguagem, gera-se palavras, frases ou parágrafos com base em um conjunto de regras gramaticais. Você pode pensar em uma gramática molecular da mesma maneira. É um conjunto de regras de produção que determinam como gerar moléculas ou polímeros combinando átomos e subestruturas.
Assim como uma gramática de linguagem, que pode gerar uma infinidade de sentenças usando as mesmas regras, uma gramática molecular pode representar um grande número de moléculas. Moléculas com estruturas semelhantes usam as mesmas regras de produção gramatical e o sistema aprende a entender essas semelhanças.
Como moléculas estruturalmente semelhantes geralmente têm propriedades semelhantes, o sistema usa seu conhecimento subjacente de similaridade molecular para prever as propriedades de novas moléculas com mais eficiência.
“Uma vez que tenhamos essa gramática como uma representação para todas as diferentes moléculas, podemos usá-la para impulsionar o processo de previsão de propriedades”, diz Guo.
O sistema aprende as regras de produção para uma gramática molecular usando aprendizado por reforço – um processo de tentativa e erro em que o modelo é recompensado pelo comportamento que o aproxima de atingir um objetivo.
Mas como pode haver bilhões de maneiras de combinar átomos e subestruturas, o processo para aprender regras de produção gramatical seria muito caro computacionalmente para qualquer coisa, exceto o menor conjunto de dados.
Os pesquisadores separaram a gramática molecular em duas partes. A primeira parte, chamada de metagramática, é uma gramática geral e amplamente aplicável que eles projetam manualmente e fornecem ao sistema desde o início. Em seguida, ele só precisa aprender uma gramática específica de molécula muito menor do conjunto de dados do domínio. Esta abordagem hierárquica acelera o processo de aprendizagem.
Grandes resultados, pequenos conjuntos de dados
Em experimentos, o novo sistema dos pesquisadores gerou simultaneamente moléculas e polímeros viáveis e previu suas propriedades com mais precisão do que várias abordagens populares de aprendizado de máquina, mesmo quando os conjuntos de dados específicos do domínio tinham apenas algumas centenas de amostras. Alguns outros métodos também exigiam uma etapa de pré-treinamento dispendiosa que o novo sistema evita.
A técnica foi especialmente eficaz na previsão de propriedades físicas de polímeros, como a temperatura de transição vítrea, que é a temperatura necessária para que um material faça a transição de sólido para líquido. A obtenção dessas informações manualmente costuma ser extremamente cara porque os experimentos exigem temperaturas e pressões extremamente altas.
Para levar sua abordagem ainda mais longe, os pesquisadores reduziram um conjunto de treinamento em mais da metade – para apenas 94 amostras. Seu modelo ainda alcançou resultados que estavam em pé de igualdade com os métodos treinados usando todo o conjunto de dados.
“Essa representação baseada em gramática é muito poderosa. E como a gramática em si é uma representação muito geral, ela pode ser implantada em diferentes tipos de dados em forma de gráfico. Estamos tentando identificar outras aplicações além da química ou da ciência dos materiais”, diz Guo .
No futuro, eles também querem estender sua gramática molecular atual para incluir a geometria 3D de moléculas e polímeros, que é a chave para entender as interações entre as cadeias poliméricas. Eles também estão desenvolvendo uma interface que mostraria ao usuário as regras de produção gramatical aprendidas e solicitaria feedback para corrigir as regras que podem estar erradas, aumentando a precisão do sistema.
Este trabalho é financiado, em parte, pelo MIT-IBM Watson AI Lab e sua empresa membro, Evonik. Artigo: “Geometria induzida por gramática hierárquica para previsão de propriedades moleculares com eficiência de dados”
.