Estudos/Pesquisa

Duplicando as famílias de proteínas conhecidas

.

Imagine pesquisadores explorando uma sala escura com uma lanterna, sendo capaz apenas de identificar claramente o que está dentro daquele único feixe. Quando se trata de comunidades microbianas, os cientistas têm sido historicamente incapazes de ver além do feixe – pior, eles nem sequer sabiam o tamanho da sala.

Um novo estudo publicado online em 11 de outubro de 2023 em Natureza destaca a vasta gama de diversidade funcional dos micróbios através de uma nova abordagem para compreender melhor as comunidades microbianas, observando a função das proteínas dentro delas. O trabalho foi liderado por uma equipe de cientistas do Joint Genome Institute (JGI) do Departamento de Energia dos EUA (DOE), uma instalação de usuário do DOE Office of Science localizada no Laboratório Nacional Lawrence Berkeley (Berkeley Lab) e colaboradores de vários outros centros de pesquisa. ao redor do mundo.

“Mais do que duplicámos o número de famílias de proteínas conhecidas até agora e identificámos muitas novas previsões de estruturas”, disse o principal autor do artigo, Georgios Pavlopoulos, agora diretor de investigação no Centro de Investigação em Ciências Biomédicas. Alexandre Fleming. “Esta foi uma análise massiva de 1,3 bilhão de proteínas com cálculos massivamente paralelos”.

Guiada por cientistas do JGI, a equipe embarcou em uma missão para desvendar os mistérios escondidos no reino funcional “escuro”. Seu foco se concentrou na decifração do intrincado mundo da diversidade funcional das proteínas: as novas famílias de proteínas e as novas funções em micróbios ainda não revelados. Aproveitando o poder coletivo de mais de 26.000 conjuntos de dados de microbiomas, todos acessíveis através do banco de dados de Genomas Microbianos e Microbiomas Integrados (IMG/M) disponível publicamente, eles criaram com sucesso o Catálogo de Novas Famílias de Proteínas Metagenômicas (NMPF).

“Agora podemos analisar novos conjuntos de dados comparando com essas famílias de proteínas, ou analisar ainda mais as famílias de proteínas, a fim de prever novas funções”, disse Nikos Kyrpides, autor sênior do estudo e chefe do grupo Microbiome Data Science do JGI.

Iluminando a “matéria escura” funcional

As comunidades microbianas que vivem em todo o lado, desde os solos e estômagos até às profundezas do mar, são capazes de fazer muitas coisas únicas no que diz respeito aos ciclos de energia – transformar biomassa em coisas como etanol ou hidrogénio, ou energia solar em hidrogénio.

As comunidades microbianas também são incrivelmente difíceis de estudar. Muitos dos micróbios dentro deles não podem ser cultivados em laboratório. Como cada comunidade microbiana tem sua própria composição única de atores microbianos e as funções que desempenham, é impossível replicar artificialmente uma comunidade inteira.

O sequenciamento metagenômico permite aos pesquisadores estudar toda a composição genética dessas comunidades por meio do sequenciamento completo do genoma das amostras, sem ser capaz de distinguir qual gene pertence a cada espécie microbiana individual dentro de uma comunidade. Portanto, o processo depende da referência às sequências do genoma existentes.

Algumas dessas proteínas são o que os cientistas chamam de “conhecidos” – isto é, são semelhantes a genes com função conhecida. Outros são chamados de “desconhecidos conhecidos” – isto é, são semelhantes a genes previamente conhecidos de organismos isolados, mas ainda não temos certeza de sua função.

No entanto, se um gene na comunidade não corresponder a nenhum dos genes previamente conhecidos de isolados, não há muito que os cientistas possam dizer sobre a sua função ou a sua origem. Como resultado, estes genes foram normalmente descartados de qualquer análise como informação inútil. Eles representam as “incógnitas desconhecidas” porque não são semelhantes a nada que já definimos.

“Uma enorme percentagem – cerca de 30-50% das famílias de proteínas que conhecíamos até agora – ainda não tem qualquer função conhecida, mas conhecíamos as famílias”, disse Kyrpides. No entanto, “quase 20 anos de dados metagenómicos e análises metagenómicas, e ainda não houve uma análise real das famílias de proteínas dos metagenomas per se”.

Recentemente, outras equipas de investigação aproveitaram o poder da inteligência artificial para descodificar a linguagem das sequências de proteínas e obter dicas das suas possíveis funções. No entanto, estes esforços limitaram-se ao domínio das sequências de proteínas já conhecidas.

“Neste esforço, não só nos aventuramos no território desconhecido da compreensão da vasta paisagem da diversidade funcional, mas também expandimos os limites ao aplicar metodologias de IA para desvendar as suas funções”, disse Pavlopoulos. “Consequentemente, acumulamos um extenso repositório de insights inovadores, expandindo significativamente os horizontes de funções potenciais em várias categorias de proteínas, incluindo aquelas com aplicações essenciais em biotecnologia, como enzimas de edição de DNA”.

Aproveitando famílias de proteínas de uma nova maneira

A descoberta de novas famílias de proteínas começou a estagnar nos últimos anos, talvez sugerindo que os cientistas tinham “capturado” grande parte da diversidade existente, mesmo que ainda não tivessem definido exatamente o que faziam. Mas que tipo de diversidade essas “incógnitas desconhecidas” poderiam conter?

A equipe começou com 8 bilhões de genes metagenoma do IMG (o estudo também faz referência a dados dos Genomas do Microbioma da Terra do JGI, ou catálogo GEM). Em seguida, removeram quaisquer genes que tivessem, mesmo que remotamente, semelhança com genes anteriormente conhecidos, deixando-os com cerca de 1,2 mil milhões de novos genes.

Eles pegaram o que sobrou e os agruparam em famílias. A partir daí eles se concentraram em famílias com pelo menos 100 membros.

“Se você tiver 100 sequências, a qualidade do cluster é significativamente maior porque é muito difícil ter 100 sequências de diferentes locais ou habitats que se alinhem muito bem, aleatoriamente”, explicou Kyrpides. “Replicar isso 100 vezes teria sido quase impossível.”

Quando a equipa terminou esta fase, descobriu que a diversidade da família de proteínas dentro deste espaço metagenómico (as “incógnitas desconhecidas”) era muito maior do que a dos genomas de referência – pelo menos o dobro.

“À medida que adicionamos mais amostras, obtemos mais famílias de proteínas”, disse Kyrpides. “Em alguns anos, à medida que continuarmos a sequenciar mais metagenomas, alguns dos clusters que atualmente têm 50 membros ou mais crescerão para 100 membros ou mais também. Então, estamos dizendo que a diversidade dobrou, mas na realidade poderia haverá três ou quatro ou cinco ou dez vezes mais lá fora.”

Indo mais longe em uma variedade de diversidade

Embora a equipe não tenha detalhado a função, eles conseguiram caracterizar ainda mais essas famílias. Eles dividiram as famílias de proteínas por ambiente e descobriram que apenas 7% das famílias de proteínas eram compartilhadas em todas as oito categorias ambientais. Em vez disso, as famílias preferiram um ambiente específico – seja solo, hospedeiros animais, ecossistemas marinhos, etc.

“Então, eles devem estar fazendo algo interessante ou importante para aquele habitat”, explicou Pavlopoulos. “Esse é definitivamente um material que a comunidade científica agora pode usar ainda mais. Digamos que alguém esteja trabalhando em ambientes de solo ou no corpo humano – eles podem pegar algumas dessas famílias e tentar caracterizá-las funcionalmente porque são muito específicas daquele habitat. “

A análise taxonómica descobriu que a maioria destas famílias de proteínas pertencia a bactérias e vírus, embora 6 milhões de sequências tenham escapado à classificação. Os pesquisadores também tentaram aprimorar a função dos genes por meio de modelagem 3D e comparar estruturas do desconhecido com aquelas do conhecido – estrutura semelhante equivale a alta probabilidade de função semelhante. A equipe também identificou famílias de proteínas com estruturas completamente novas.

O poder computacional para realizar este nível de análise dependia do acesso ao National Energy Research Scientific Computing Center, outra instalação de usuário do Berkeley Lab.

“É também um crédito para a equipe de Aydin Buluç da Divisão de Matemática Aplicada e Pesquisa Computacional do Berkeley Lab”, disse Pavlopoulos. “Eles desenvolveram algoritmos paralelos para realizar comparações ‘todos contra todos’ e agrupamento de gráficos capazes de rodar em infraestruturas altamente paralelas.”

Esta é a primeira vez que estruturas proteicas foram usadas para ajudar a caracterizar a vasta gama de matéria escura microbiana. O estudo levou cerca de dois anos para ser concluído, com apenas cerca de 20 mil metagenomas sequenciados na época. Agora, esse número está mais próximo de 60.000.

“Ainda existe 70-80% da diversidade microbiana conhecida que ainda não foi capturada genomicamente”, disse Kyrpides. “Portanto, essa diversidade definitivamente guarda muitos novos segredos também em termos de diversidade funcional.”

Pesquisadores da Universidade de Harvard, Universidade de Indiana. Universidade de Creta (Grécia). O Instituto de Tecnologia da Geórgia, a Universidade Estadual de Michigan, o Laboratório Nacional Lawrence Livermore, a Universidade de Washington, o Centro de Pesquisa e Tecnologia Hellas (Grécia), a Universidade Aristóteles de Tessalônica (Grécia) e a Universidade da Califórnia, Berkeley, também estiveram envolvidos no trabalho. Outros autores do artigo são Fotis Baltoumas, Sirui Liu, Oguz Selvitopi, Antonio Camargo Stephen Nayfach, Ariful Azad, Simon Roux, Lee Call, Natalia N. Ivanova, I Min Che, David Paez-Espino, Evangelos Karatzas, Novel Metagenome Protein Families Consórcio, Ioannis Iliopoulos, Konstantinos Konstantinidis, James M. Tiedje, Jennifer Pett-Ridge, David Baker, Axel Visel, Christos A. Ouzounis e Sergey Ovchinnikov.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo