.
Pesquisadores da Universidade de Toronto desenvolveram um sistema de inteligência artificial que pode criar proteínas não encontradas na natureza usando difusão generativa, a mesma tecnologia por trás de plataformas populares de criação de imagens, como DALL-E e Midjourney.
O sistema ajudará a avançar no campo da biologia generativa, que promete acelerar o desenvolvimento de medicamentos, tornando o design e o teste de proteínas terapêuticas inteiramente novas mais eficientes e flexíveis.
“Nosso modelo aprende a partir de representações de imagens para gerar proteínas totalmente novas, em uma taxa muito alta”, diz Philip M. Kim, professor do Donnelly Center for Cellular and Biomolecular Research na U of T’s Temerty Faculty of Medicine. “Todas as nossas proteínas parecem ser biofisicamente reais, o que significa que elas se dobram em configurações que lhes permitem realizar funções específicas dentro das células”.
Hoje, o jornal Natureza Ciência Computacional publicou os resultados, o primeiro de seu tipo em um jornal revisado por pares. O laboratório de Kim também publicou uma pré-impressão do modelo no verão passado por meio do servidor de acesso aberto bioRxiv, à frente de duas pré-impressões semelhantes de dezembro passado, RF Diffusion da Universidade de Washington e Chroma da Generate Biomedicines.
As proteínas são feitas de cadeias de aminoácidos que se dobram em formas tridimensionais, que por sua vez ditam a função da proteína. Essas formas evoluíram ao longo de bilhões de anos e são variadas e complexas, mas também limitadas em número. Com uma melhor compreensão de como as proteínas existentes se dobram, os pesquisadores começaram a projetar padrões de dobramento não produzidos na natureza.
Mas um grande desafio, diz Kim, foi imaginar dobras que fossem possíveis e funcionais. “Tem sido muito difícil prever quais dobras serão reais e funcionarão em uma estrutura de proteína”, diz Kim, que também é professor nos departamentos de genética molecular e ciência da computação na U of T. “Ao combinar representações baseadas em biofísica de estrutura de proteína com métodos de difusão a partir do espaço de geração de imagens, podemos começar a resolver esse problema.”
O novo sistema, que os pesquisadores chamam de ProteinSGM, baseia-se em um grande conjunto de representações semelhantes a imagens de proteínas existentes que codificam sua estrutura com precisão. Os pesquisadores alimentam essas imagens em um modelo de difusão generativo, que gradualmente adiciona ruído até que cada imagem se torne totalmente ruído. O modelo rastreia como as imagens se tornam mais ruidosas e, em seguida, executa o processo ao contrário, aprendendo como transformar pixels aleatórios em imagens claras que correspondem a proteínas totalmente novas.
Jin Sub (Michael) Lee, aluno de doutorado no laboratório Kim e primeiro autor do artigo, diz que otimizar o estágio inicial desse processo de geração de imagens foi um dos maiores desafios na criação do ProteinSGM. “Uma ideia-chave era a representação adequada da estrutura da proteína, semelhante a uma imagem, de modo que o modelo de difusão pudesse aprender como gerar novas proteínas com precisão”, diz Lee, que é de Vancouver, mas fez sua graduação na Coreia do Sul e mestrado na Suíça antes escolhendo a U of T para seu doutorado.
Também foi difícil a validação das proteínas produzidas pelo ProteinSGM. O sistema gera muitas estruturas, muitas vezes diferentes de qualquer coisa encontrada na natureza. Quase todos eles parecem reais de acordo com as métricas padrão, diz Lee, mas os pesquisadores precisavam de mais provas.
Para testar suas novas proteínas, Lee e seus colegas recorreram primeiro ao OmegaFold, uma versão aprimorada do software AlphaFold 2 da DeepMind. Ambas as plataformas usam IA para prever a estrutura de proteínas com base em sequências de aminoácidos.
Com o OmegaFold, a equipe confirmou que quase todas as novas sequências se dobram nas estruturas de proteínas desejadas e novas. Eles então escolheram um número menor para criar fisicamente em tubos de ensaio, para confirmar que as estruturas eram proteínas e não apenas cadeias perdidas de compostos químicos.
“Com correspondências no OmegaFold e testes experimentais em laboratório, pudemos ter certeza de que eram proteínas dobradas corretamente. Foi incrível ver a validação dessas dobras de proteína totalmente novas que não existem em nenhum lugar na natureza”, diz Lee.
Os próximos passos com base neste trabalho incluem o desenvolvimento do ProteinSGM para anticorpos e outras proteínas com maior potencial terapêutico, diz Kim. “Esta será uma área muito excitante para pesquisa e empreendedorismo”, acrescenta.
Lee diz que gostaria de ver a biologia generativa avançar em direção ao design conjunto de sequências e estruturas de proteínas, incluindo conformações de cadeias laterais de proteínas. A maioria das pesquisas até hoje se concentrou na geração de esqueletos, as estruturas químicas primárias que mantêm as proteínas unidas.
“As configurações da cadeia lateral determinam a função da proteína e, embora projetá-las signifique um aumento exponencial na complexidade, pode ser possível com a engenharia adequada”, diz Lee. “Esperamos descobrir.”
.




