Estudos/Pesquisa

Essas proteínas ajustáveis ​​podem ser usadas para criar novos materiais com propriedades mecânicas específicas, como resistência ou flexibilidade – Strong The One

.

Pesquisadores do MIT estão usando inteligência artificial para projetar novas proteínas que vão além das encontradas na natureza.

Eles desenvolveram algoritmos de aprendizado de máquina que podem gerar proteínas com características estruturais específicas, que podem ser usadas para fabricar materiais com certas propriedades mecânicas, como rigidez ou elasticidade. Esses materiais de inspiração biológica poderiam potencialmente substituir materiais feitos de petróleo ou cerâmica, mas com uma pegada de carbono muito menor.

Os pesquisadores do MIT, do MIT-IBM Watson AI Lab e da Tufts University empregaram um modelo generativo, que é o mesmo tipo de arquitetura de modelo de aprendizado de máquina usado em sistemas de IA como o DALL-E 2. Mas, em vez de usá-lo para gerar imagens de prompts de linguagem natural, como o DALL-E 2 faz, eles adaptaram a arquitetura do modelo para prever sequências de aminoácidos de proteínas que atingem objetivos estruturais específicos.

Em artigo a ser publicado em químico, os pesquisadores demonstram como esses modelos podem gerar proteínas realistas, mas novas. Os modelos, que aprendem as relações bioquímicas que controlam a forma como as proteínas se formam, podem produzir novas proteínas que podem permitir aplicações únicas, diz o autor sênior Markus Buehler, o professor Jerry McAfee em engenharia e professor de engenharia civil e ambiental e de engenharia mecânica.

Por exemplo, essa ferramenta pode ser usada para desenvolver revestimentos de alimentos inspirados em proteínas, que podem manter os produtos frescos por mais tempo e, ao mesmo tempo, serem seguros para o consumo humano. E os modelos podem gerar milhões de proteínas em poucos dias, dando rapidamente aos cientistas um portfólio de novas ideias para explorar, acrescenta.

“Quando você pensa em projetar proteínas que a natureza ainda não descobriu, é um espaço de design tão grande que você não pode simplesmente resolver com lápis e papel. Você tem que descobrir a linguagem da vida, a maneira como os aminoácidos são codificados pelo DNA e depois se juntam para formar estruturas de proteínas. Antes de termos aprendizado profundo, realmente não podíamos fazer isso “, diz Buehler, que também é membro do MIT-IBM Watson AI Lab.

Juntando-se a Buehler no papel estão o autor principal Bo Ni, um pós-doutorado no Laboratório de Buehler para Mecânica Atomística e Molecular; e David Kaplan, professor de engenharia da Stern Family e professor de bioengenharia na Tufts.

Adaptar novas ferramentas para a tarefa

As proteínas são formadas por cadeias de aminoácidos, dobradas juntas em padrões 3D. A sequência de aminoácidos determina as propriedades mecânicas da proteína. Embora os cientistas tenham identificado milhares de proteínas criadas ao longo da evolução, eles estimam que um número enorme de sequências de aminoácidos permanece desconhecido.

Para agilizar a descoberta de proteínas, os pesquisadores desenvolveram recentemente modelos de aprendizado profundo que podem prever a estrutura 3D de uma proteína para um conjunto de sequências de aminoácidos. Mas o problema inverso – prever uma sequência de estruturas de aminoácidos que atendem aos objetivos do projeto – provou ser ainda mais desafiador.

Um novo advento no aprendizado de máquina permitiu que Buehler e seus colegas enfrentassem esse desafio espinhoso: modelos de difusão baseados em atenção.

Modelos baseados em atenção podem aprender relacionamentos de longo alcance, o que é fundamental para o desenvolvimento de proteínas porque uma mutação em uma longa sequência de aminoácidos pode fazer ou quebrar todo o design, diz Buehler. Um modelo de difusão aprende a gerar novos dados por meio de um processo que envolve a adição de ruído aos dados de treinamento e, em seguida, aprende a recuperar os dados removendo o ruído. Eles geralmente são mais eficazes do que outros modelos na geração de dados realistas e de alta qualidade que podem ser condicionados para atender a um conjunto de objetivos de destino para atender a uma demanda de projeto.

Os pesquisadores usaram essa arquitetura para construir dois modelos de aprendizado de máquina que podem prever uma variedade de novas sequências de aminoácidos que formam proteínas que atendem aos objetivos do projeto estrutural.

“Na indústria biomédica, você pode não querer uma proteína que é completamente desconhecida, porque então você não conhece suas propriedades. Mas em algumas aplicações, você pode querer uma nova proteína que seja semelhante a uma encontrada na natureza, mas não algo diferente. Podemos gerar um espectro com esses modelos, que controlamos ajustando certos botões”, diz Buehler.

Padrões de dobramento comuns de aminoácidos, conhecidos como estruturas secundárias, produzem diferentes propriedades mecânicas. Por exemplo, proteínas com estruturas de alfa-hélice produzem materiais elásticos, enquanto aquelas com estruturas de folha beta produzem materiais rígidos. A combinação de hélices alfa e folhas beta pode criar materiais elásticos e fortes, como a seda.

Os pesquisadores desenvolveram dois modelos, um que opera nas propriedades estruturais gerais da proteína e outro que opera no nível de aminoácidos. Ambos os modelos funcionam combinando essas estruturas de aminoácidos para gerar proteínas. Para o modelo que opera nas propriedades estruturais gerais, o usuário insere uma porcentagem desejada de diferentes estruturas (40% de alfa-hélice e 60% de folha beta, por exemplo). Em seguida, o modelo gera sequências que atendem a esses alvos. Para o segundo modelo, o cientista também especifica a ordem das estruturas de aminoácidos, o que dá um controle muito mais refinado.

Os modelos estão conectados a um algoritmo que prevê o dobramento da proteína, que os pesquisadores usam para determinar a estrutura 3D da proteína. Em seguida, eles calculam as propriedades resultantes e as comparam com as especificações do projeto.

Projetos realistas, mas inovadores

Eles testaram seus modelos comparando as novas proteínas com proteínas conhecidas que possuem propriedades estruturais semelhantes. Muitos tinham alguma sobreposição com sequências de aminoácidos existentes, cerca de 50 a 60 por cento na maioria dos casos, mas também algumas sequências inteiramente novas. O nível de similaridade sugere que muitas das proteínas geradas são sintetizáveis, acrescenta Buehler.

Para garantir que as proteínas previstas sejam razoáveis, os pesquisadores tentaram enganar os modelos inserindo alvos de design fisicamente impossíveis. Eles ficaram impressionados ao ver que, em vez de produzir proteínas improváveis, os modelos geraram a solução sintetizável mais próxima.

“O algoritmo de aprendizado pode captar as relações ocultas na natureza. Isso nos dá confiança para dizer que tudo o que sair do nosso modelo provavelmente será realista”, diz Ni.

Em seguida, os pesquisadores planejam validar experimentalmente alguns dos novos designs de proteínas, fazendo-os em laboratório. Eles também querem continuar aumentando e refinando os modelos para que possam desenvolver sequências de aminoácidos que atendam a mais critérios, como funções biológicas.

“Para as aplicações nas quais estamos interessados, como sustentabilidade, medicina, alimentos, saúde e design de materiais, precisaremos ir além do que a natureza fez. Aqui está uma nova ferramenta de design que podemos usar para criar possíveis soluções que pode nos ajudar a resolver alguns dos problemas sociais realmente urgentes que enfrentamos”, diz Buehler.

Esta pesquisa foi apoiada, em parte, pelo MIT-IBM Watson AI Lab, pelo Departamento de Agricultura dos EUA, pelo Departamento de Energia dos EUA, pelo Escritório de Pesquisa do Exército, pelos Institutos Nacionais de Saúde e pelo Escritório de Pesquisa Naval.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo