.
A chave para entender as proteínas – como as que governam o câncer, COVID-19 e outras doenças – é bastante simples. Identifique sua estrutura química e descubra quais outras proteínas podem se ligar a elas. Mas há um porém.
“O espaço de busca por proteínas é enorme”, disse Brian Coventry, cientista pesquisador do Instituto de Design de Proteínas da Universidade de Washington e do Instituto Médico Howard Hughes.
Uma proteína estudada por seu laboratório normalmente é feita de 65 aminoácidos e, com 20 opções diferentes de aminoácidos em cada posição, existem 65 combinações de ligação de poder elevado à 20, um número maior do que o número estimado de átomos que existem no universo.
Coventry é coautor de um estudo publicado em maio de 2023 na revista Natureza Comunicações.
Nele, sua equipe usou métodos de aprendizado profundo para aumentar os modelos físicos baseados em energia existentes no projeto de proteína computacional ‘do novo’ ou do zero, resultando em um aumento de 10 vezes nas taxas de sucesso verificadas no laboratório para ligar uma proteína projetada com seu proteína alvo.
“Mostramos que você pode ter um pipeline significativamente melhorado incorporando métodos de aprendizado profundo para avaliar a qualidade das interfaces onde as ligações de hidrogênio se formam ou de interações hidrofóbicas”, disse o coautor do estudo Nathaniel Bennett, pós-doutorando no Institute for Design de Proteínas, Universidade de Washington.
“Isso é o oposto de tentar enumerar exatamente todas essas energias por si mesmas”, acrescentou.
Os leitores podem estar familiarizados com exemplos populares de aplicativos de aprendizado profundo, como o modelo de linguagem ChatGPT ou o gerador de imagens DALL-E.
O aprendizado profundo usa algoritmos de computador para analisar e extrair inferências de padrões nos dados, colocando os algoritmos em camadas para extrair progressivamente recursos de nível superior da entrada bruta. No estudo, métodos de aprendizado profundo foram usados para aprender transformações iterativas de representação da sequência de proteínas e possível estrutura que convergem muito rapidamente em modelos que se revelam muito precisos.
O protocolo de design de ligante de proteína de novo com aprendizado profundo desenvolvido pelos autores incluiu as ferramentas de software de aprendizado de máquina AlphaFold 2 e também RoseTTA fold, que foi desenvolvido pelo Institute for Protein Design.
O co-autor do estudo David Baker, diretor do Institute for Protein Design e investigador do Howard Hughes Medical Institute, recebeu uma alocação Pathways no supercomputador Frontera do Texas Advanced Computing Center (TACC), que é financiado pela National Science Foundation .
O problema do estudo foi adequado para paralelização no Frontera porque as trajetórias de design de proteína são todas independentes umas das outras, o que significa que as informações não precisavam passar entre as trajetórias de design enquanto os trabalhos de computação estavam sendo executados.
“Acabamos de dividir esse problema, que tem de 2 a 6 milhões de designs, e executamos todos eles em paralelo nos enormes recursos de computação do Frontera. Ele tem uma grande quantidade de nós de CPU. E atribuímos a cada um desses CPUS para fazer uma dessas trajetórias de design, o que nos permite concluir um número extremamente grande de trajetórias de design em um tempo viável”, disse Bennett.
Os autores usaram o programa de encaixe RifDock para gerar seis milhões de ‘docas’ de proteínas, ou interações entre estruturas de proteínas potencialmente ligadas, dividi-las em pedaços de cerca de 100.000 e atribuir cada pedaço a um dos mais de 8.000 nós de computação do Frontera usando utilitários Linux.
Cada uma dessas 100.000 docas seria dividida em 100 tarefas de mil proteínas cada. Mil proteínas vão para o software de design computacional Rosetta, onde as 1.000 são rastreadas pela primeira vez no décimo da segunda escala, e as que sobrevivem são rastreadas na escala de poucos minutos.
Além disso, os autores usaram a ferramenta de software ProteinMPNN desenvolvida pelo Institute for Protein Design para aumentar ainda mais a eficiência computacional da geração de redes neurais de sequências de proteínas para mais de 200 vezes mais rápido do que o melhor software anterior.
Os dados usados em sua modelagem são dados de ligação de exibição de superfície de levedura, todos disponíveis publicamente e coletados pelo Institute for Protein Design. Nele, dezenas de milhares de cadeias diferentes de DNA foram ordenadas para codificar uma proteína diferente, que os cientistas projetaram.
O DNA foi então combinado com levedura de forma que cada célula de levedura expresse uma das proteínas projetadas em sua superfície. As células de levedura foram então classificadas em células que se ligam e células que não se ligam. Por sua vez, eles usaram ferramentas do projeto de sequenciamento do genoma humano para descobrir qual DNA funcionava e qual não funcionava.
Apesar dos resultados do estudo que mostraram um aumento de 10 vezes na taxa de sucesso para as estruturas projetadas se ligarem à sua proteína-alvo, ainda há um longo caminho a percorrer, de acordo com Coventry.
“Subimos uma ordem de grandeza, mas ainda faltam mais três. O futuro da pesquisa é aumentar ainda mais essa taxa de sucesso e passar para uma nova classe de alvos ainda mais difíceis”, disse. Vírus e receptores de células T de câncer são exemplos principais.
As maneiras de melhorar as proteínas projetadas computacionalmente são tornar as ferramentas de software ainda mais otimizadas ou coletar mais amostras.
Disse Coventry: “Quanto maior for o computador que pudermos encontrar, melhores serão as proteínas que poderemos produzir. Estamos construindo as ferramentas para fabricar as drogas de combate ao câncer de amanhã. Muitos dos aglutinantes individuais que fabricamos podem se tornar as drogas que salvam a vida das pessoas. Estamos fazendo o processo para melhorar esses medicamentos.”
.





