.
Por mais de 20 anos, os cientistas confiaram no genoma humano de referência, uma sequência genética consensual, como padrão para comparar outros dados genéticos. Utilizado em inúmeros estudos, o genoma de referência tem permitido identificar genes implicados em doenças específicas e traçar a evolução de características humanas, entre outras coisas.
Mas sempre foi uma ferramenta defeituosa. Um de seus maiores problemas é que cerca de 70% de seus dados vieram de um único homem de origem predominantemente afro-europeia cujo DNA foi sequenciado durante o Projeto Genoma Humano, o primeiro esforço para capturar todo o DNA de uma pessoa. Como resultado, pode nos dizer pouco sobre o 0,2 a um por cento da sequência genética que torna cada uma das sete bilhões de pessoas neste planeta diferentes umas das outras, criando um viés inerente nos dados biomédicos que se acredita serem responsáveis por alguns dos problemas de saúde. disparidades que afetam os pacientes hoje. Muitas variantes genéticas encontradas em populações não europeias, por exemplo, não estão representadas no genoma de referência.
Durante anos, os pesquisadores pediram um recurso mais inclusivo da diversidade humana para diagnosticar doenças e orientar tratamentos médicos. Agora, os cientistas do Consórcio de Referência do Pangenoma Humano fizeram progressos inovadores na caracterização da fração do DNA humano que varia entre os indivíduos. Como eles publicaram recentemente em Naturezaeles reuniram sequências genômicas de 47 pessoas de todo o mundo em um chamado pangenoma, no qual mais de 99% de cada sequência é processada com alta precisão.
Em camadas umas sobre as outras, essas sequências revelaram quase 120 milhões de pares de bases de DNA que não eram vistos anteriormente.
Embora ainda seja um trabalho em andamento, o pangenoma é público e pode ser usado por cientistas de todo o mundo como um novo padrão de referência do genoma humano, diz Erich D. Jarvis, da Universidade Rockefeller, um dos principais investigadores.
“Esta complexa coleção genômica representa uma diversidade genética humana significativamente mais precisa do que jamais foi capturada antes”, diz ele. “Com uma maior amplitude e profundidade de dados genéticos à sua disposição e maior qualidade dos conjuntos de genomas, os pesquisadores podem refinar sua compreensão da ligação entre genes e características de doenças e acelerar a pesquisa clínica”.
Diversidade de fornecimento
Concluído em 2003, o primeiro rascunho do genoma humano era relativamente impreciso, mas tornou-se mais nítido ao longo dos anos graças ao preenchimento de lacunas, erros corrigidos e avanço da tecnologia de sequenciamento. Outro marco foi alcançado no ano passado, quando os oito por cento finais do genoma – principalmente DNA fortemente enrolado que não codifica para proteínas e regiões repetitivas de DNA – foi finalmente sequenciado.
Apesar desse progresso, o genoma de referência permaneceu imperfeito, especialmente no que diz respeito ao crítico 0,2 a um por cento do DNA que representa a diversidade. O Human Pangenoma Reference Consortium (HPRC), uma colaboração financiada pelo governo entre mais de uma dúzia de instituições de pesquisa nos Estados Unidos e na Europa, foi lançado em 2019 para resolver esse problema.
Na época, Jarvis, um dos líderes do consórcio, estava aprimorando sequenciamento avançado e métodos computacionais por meio do Projeto Genomas de Vertebrados, que visa sequenciar todas as 70.000 espécies de vertebrados. Seu e outros laboratórios colaboradores decidiram aplicar esses avanços para conjuntos de genoma diplóide de alta qualidade para revelar a variação dentro de um único vertebrado: homo sapiens.
Para coletar uma diversidade de amostras, os pesquisadores recorreram ao Projeto 1000 Genomas, um banco de dados público de genomas humanos sequenciados que inclui mais de 2.500 indivíduos representando 26 populações geograficamente e etnicamente variadas. A maioria das amostras vem da África, que abriga a maior diversidade humana do planeta.
“Em muitos outros grandes projetos de diversidade do genoma humano, os cientistas selecionaram principalmente amostras europeias”, diz Jarvis. “Fizemos um esforço proposital para fazer o oposto. Estávamos tentando neutralizar os preconceitos do passado.”
É provável que variantes genéticas que possam informar nosso conhecimento sobre doenças comuns e raras possam ser encontradas entre essas populações.
Mãe, pai e filho
Mas, para ampliar o pool genético, os pesquisadores tiveram que criar sequências mais nítidas e claras de cada indivíduo – e as abordagens desenvolvidas pelos membros do Vertebrate Genome Project e consórcios associados foram usadas para resolver um problema técnico de longa data no campo.
Cada pessoa herda um genoma de cada pai, e é assim que acabamos com duas cópias de cada cromossomo, dando-nos o que é conhecido como genoma diplóide. E quando o genoma de uma pessoa é sequenciado, separar o DNA dos pais pode ser um desafio. Técnicas e algoritmos mais antigos cometeram erros rotineiramente ao mesclar dados genéticos dos pais de um indivíduo, resultando em uma visão nublada. “As diferenças entre os cromossomos da mãe e do pai são maiores do que a maioria das pessoas imagina”, diz Jarvis. “A mãe pode ter 20 cópias de um gene e o pai apenas duas.”
Com tantos genomas representados em um pangenoma, essa nebulosidade ameaçou se transformar em uma tempestade de confusão. Assim, o HPRC baseou-se em um método desenvolvido por Adam Phillippy e Sergey Koren no National Institutes of Health em “trios” pai-filho – uma mãe, um pai e uma criança cujos genomas foram todos sequenciados. Usando os dados da mãe e do pai, eles conseguiram esclarecer as linhas de herança e chegar a uma sequência de maior qualidade para a criança, que eles usaram para análise do pangenoma.
Novas variações
A análise dos pesquisadores de 47 pessoas rendeu 94 sequências genômicas distintas, duas para cada conjunto de cromossomos, mais o cromossomo sexual Y nos homens.
Eles então usaram técnicas computacionais avançadas para alinhar e sobrepor as 94 sequências. Dos 120 milhões de pares de bases de DNA que não foram vistos anteriormente ou em um local diferente do que foi observado na referência anterior, cerca de 90 milhões derivam de variações estruturais, que são diferenças no DNA das pessoas que surgem quando pedaços de cromossomos são rearranjados – – movido, excluído, invertido ou com cópias extras de duplicações.
É uma descoberta importante, observa Jarvis, porque estudos nos últimos anos estabeleceram que as variantes estruturais desempenham um papel importante na saúde humana, bem como na diversidade específica da população. “Eles podem ter efeitos dramáticos nas diferenças de características, doenças e função genética”, diz ele. “Com tantos novos identificados, haverá muitas novas descobertas que não eram possíveis antes.”
Preenchendo lacunas
A montagem do pangenoma também preenche as lacunas devidas a sequências repetitivas ou genes duplicados. Um exemplo é o complexo principal de histocompatibilidade (MHC), um conjunto de genes que codificam proteínas na superfície das células que ajudam o sistema imunológico a reconhecer antígenos, como os do vírus SARS-CoV-2.
“Eles são realmente importantes, mas era impossível estudar a diversidade do MHC usando os métodos de sequenciamento mais antigos”, diz Jarvis. “Estamos vendo uma diversidade muito maior do que esperávamos. Esta nova informação nos ajudará a entender como as respostas imunes contra patógenos específicos variam entre as pessoas.” Também pode levar a melhores métodos para combinar doadores de transplante de órgãos e pacientes, ou identificar pessoas em risco de desenvolver doenças autoimunes.
A equipe também descobriu novas características surpreendentes dos centrômeros, que ficam nos pontos cruciais dos cromossomos e conduzem a divisão celular, separando-se à medida que as células se duplicam. Mutações nos centrômeros podem levar a cânceres e outras doenças.
Apesar de terem sequências de DNA altamente repetitivas, “os centrômeros são tão diversos de um haplótipo para outro que podem representar mais de 50% das diferenças genéticas entre pessoas ou haplótipos maternos e paternos, mesmo dentro de um indivíduo”, diz Jarvis. “Os centrômeros parecem ser uma das partes de evolução mais rápida do cromossomo.”
Construção de relacionamento
No entanto, o atual pangenoma de 47 pessoas é apenas um ponto de partida. O objetivo final do HPRC é produzir genomas de alta qualidade e quase sem erros de pelo menos 350 indivíduos de diversas populações até meados de 2024, um marco que possibilitaria a captura de alelos raros que conferem importantes características adaptativas. Os tibetanos, por exemplo, têm alelos relacionados ao uso de oxigênio e à exposição à luz ultravioleta que os permitem viver em grandes altitudes.
Um grande desafio na coleta desses dados será ganhar a confiança das comunidades que presenciaram abusos de dados biológicos no passado; por exemplo, não há amostras no estudo atual de nativos americanos nem de povos aborígines, que há muito têm sido desconsiderados ou explorados por estudos científicos. Mas você não precisa voltar muito no tempo para encontrar exemplos de uso antiético de dados genéticos: apenas alguns anos atrás, amostras de DNA de milhares de africanos em vários países foram comercializadas sem o conhecimento, consentimento ou benefício dos doadores.
Essas ofensas semearam desconfiança contra os cientistas entre muitas populações. Mas, ao não serem incluídos, alguns desses grupos podem permanecer geneticamente obscuros, levando a uma perpetuação dos vieses nos dados – e a disparidades contínuas nos resultados de saúde.
“É uma situação complexa que vai exigir muita construção de relacionamento”, diz Jarvis. “Há maior sensibilidade agora.”
E ainda hoje, muitos grupos estão dispostos a participar. “Existem indivíduos, instituições e órgãos governamentais de diferentes países que estão dizendo: ‘Queremos fazer parte disso. Queremos que nossa população seja representada’”, diz Jarvis. “Já estamos progredindo.”
.