.
Cientistas da UC Santa Cruz, juntamente com um consórcio de pesquisadores, lançaram um rascunho do primeiro pangenoma humano – uma nova referência utilizável para genômica que combina o material genético de 47 indivíduos de diferentes origens ancestrais para permitir uma análise mais profunda e precisa compreensão da diversidade genômica mundial.
Ao adicionar 119 milhões de bases – as “letras” nas sequências de DNA – à referência genômica existente, o pangenoma fornece uma representação da diversidade genética humana que não era possível com um único genoma de referência. É altamente preciso, mais completo e aumenta dramaticamente a detecção de variantes no genoma humano, como mostrado em uma coleção de artigos inovadores publicados hoje nas revistas Natureza, Pesquisa Genômica, Natureza Biotecnologiae Métodos da Natureza.
O pangenoma foi produzido pelo Consórcio de Referência do Pangenoma Humano (HPRC), que é co-liderado pelo Professor Associado de Engenharia Biomolecular da UCSC, Benedict Paten, e pela Professora Assistente de Engenharia Biomolecular, Karen Miga, e agora está disponível para uso em um hub de montagem no Genoma da UCSC. Navegador. Mais de uma dúzia de pesquisadores e estudantes da UCSC contribuíram para este projeto, que continuará em 2024, quando os pesquisadores planejam liberar um pangenoma final com informações genômicas de 350 indivíduos.
“Estamos introduzindo mais diversidade e equidade na referência ao amostrar diversos seres humanos e incluí-los nesta estrutura que todos podem usar”, disse Paten, que é o autor sênior do papel marcador principal. “Um genoma não é suficiente para representar todo mundo – o pangenoma acabará sendo algo inclusivo e representativo”.
Entendendo a variação genômica
O genoma de cada pessoa varia ligeiramente – em cerca de 0,4 por cento em comparação com a próxima pessoa, em média – e entender essas diferenças pode fornecer informações sobre sua saúde, ajudar a diagnosticar doenças, prever resultados médicos e orientar tratamentos. O uso da referência do pangenoma melhorará a capacidade dos cientistas de detectar e entender a variação em estudos futuros.
Normalmente, quando cientistas e médicos estudam o genoma de um indivíduo para procurar variação, eles comparam o DNA desse indivíduo com o de uma referência padrão para determinar onde há diferenças de um ou mais pares de bases. Até agora, o genoma de referência foi representado principalmente por uma única sequência para cada cromossomo humano, principalmente proveniente de um indivíduo. Mas, esta referência tem quase 20 anos e é fundamentalmente limitada na medida em que não pode representar a riqueza de variações genéticas presentes na população humana. Isso introduz um problema chamado viés de referência na análise do genoma.
Em contraste, o novo pangenoma é uma referência que combina os genomas de 47 indivíduos de várias origens ancestrais. O pangenoma parece uma referência linear nas áreas onde as sequências têm as mesmas bases, e se expande para mostrar as áreas onde há diferenças. Ele representa muitas versões diferentes da sequência do genoma humano ao mesmo tempo e fornece aos cientistas um ponto de comparação mais preciso para a variação que está presente em algumas populações, mas não em outras.
“Um genoma não pode representar toda a rica variação que sabemos que pode ser observada e estudada em todo o mundo”, disse Miga, diretor do Centro de Produção HPRC da UCSC. “O objetivo número 1 da referência do pangenoma humano é tentar ampliar a representação de um recurso de referência para ser mais inclusivo e mais equitativo para o estudo da espécie humana, como uma coleção de referências e não apenas uma.”
A variação genômica pode ser pequena, consistindo em diferenças de apenas uma ou poucas bases de DNA, ou pode ser grandes variantes estruturais, classificadas como variantes com 50 pares de bases ou maiores. Essas variantes estruturais maiores podem ter implicações importantes para a saúde. Até agora, os pesquisadores não conseguiram identificar mais de 70% das variantes estruturais existentes nos genomas humanos devido a tecnologias limitadas e ao viés de usar uma única sequência de referência.
Dos 119 milhões de novas bases adicionadas à referência com o pangenoma, cerca de 90 milhões delas derivam de variação estrutural. As variantes estruturais são complexas e podem ser inversões de sequências, inserções, deleções ou repetições em tandem – um segmento de duas ou mais bases repetidas inúmeras vezes. Essas novas bases ajudarão os pesquisadores a estudar regiões do genoma para as quais não havia referência anteriormente e, potencialmente, poderão associar variantes estruturais a doenças em estudos futuros.
“Agora, podemos mapear para mais variantes estruturais, então estamos encontrando características e áreas no genoma que simplesmente não existiam antes”, disse Miga. “Isso é empolgante porque nos permite olhar para a regulação genética de uma maneira única que não poderíamos estudar antes, porque essas áreas provavelmente teriam sido mapeadas de forma inadequada ou simplesmente ignoradas”.
O uso da referência do pangenoma para análise genômica aumenta a detecção de variantes estruturais em 104 por cento em comparação com a detecção usando a referência padrão. A referência do pangenoma também aumenta a precisão de chamar pequenas variantes, aquelas com apenas algumas bases de comprimento, em cerca de 34% devido ao aumento da quantidade de dados presentes no pangenoma.
Cada ser humano carrega um par de cromossomos – um conjunto herdado da mãe e outro do pai. Os genomas individuais presentes na referência do pangenoma contêm informações resolvidas por haplótipos, o que significa que podem distinguir com confiança os dois conjuntos parentais de cromossomos – um grande feito científico. Ter essa informação ajudará os cientistas a entender melhor como vários genes e doenças são herdados.
Isso também significa que a referência atual realmente inclui 94 sequências genômicas distintas, com o objetivo de chegar a 700 até 2024.
Criando o pangenoma
O pangenoma tornou-se possível através do desenvolvimento de técnicas computacionais avançadas para alinhar as múltiplas sequências do genoma em uma referência utilizável em uma estrutura chamada gráfico de pangenoma. Paten e pesquisadores do laboratório de Genômica Computacional da UCSC ajudaram a liderar os esforços do HPRC para desenvolver os métodos algorítmicos necessários para criar essa estrutura gráfica do pangenoma.
Devido aos métodos usados neste projeto, todos os genomas dentro da referência do pangenoma são de altíssima qualidade e precisão, cobrindo mais de 99% de cada genoma humano com mais de 99% de precisão.
“Na referência linear, tínhamos apenas uma sequência, uma representação de cada gene”, disse Mobin Asri, Ph.D em bioinformática. candidato na UCSC e co-primeiro autor do artigo principal. “Mas sabemos que nossos genes têm diferentes variações na população humana. Usando o gráfico do pangenoma, queremos ter todas essas variações em uma única estrutura – e um gráfico é uma maneira natural de fazer isso.”
O projeto HPRC depende muito da tecnologia de sequenciamento de leitura longa e ultra longa para ler o DNA de amostras biológicas. Com avanços recentes, essas técnicas agora podem decodificar de milhares a milhões de pares de bases do genoma de uma só vez. Os longos trechos de leituras de DNA são então montados por meio de algoritmos especializados em sequências genômicas mais completas. Idealmente, cada sequência montada deve representar a sequência de um cromossomo.
Leituras longas contêm erros em cerca de um por cento do tempo e os algoritmos de montagem atuais não são perfeitos, o que pode fazer com que as sequências montadas sejam errôneas em alguns locais. Para verificar e corrigir esses erros, os genomas individuais que foram sequenciados e montados passam por várias ferramentas, incluindo um pipeline de confiabilidade desenvolvido pela Asri. Uma vez processadas por essas ferramentas, os pesquisadores podem garantir que as montagens sejam precisas e completas.
Depois de passar pelo pipeline de Asri, os vários genomas são compilados por meio de métodos algorítmicos complexos na estrutura gráfica do pangenoma. Visualmente, o genoma gráfico permite que os pesquisadores vejam as diferenças nas várias sequências de referência como áreas divergentes em caminhos compartilhados.
Construindo um recurso acessível
Todos os primeiros 47 genomas diplóides no rascunho do pangenoma foram obtidos de indivíduos que participaram do Projeto 1000 Genomas (1000G), um esforço influente que criou um catálogo de variação genética humana comum a partir de amostras consentidas abertamente e foi concluído em 2015. O status de consentimento dessas amostras permite que qualquer pesquisador acesse o recurso sem as barreiras de privacidade que normalmente acompanham a pesquisa do genoma, com o objetivo de tornar o pangenoma acessível ao maior número possível de pessoas.
“Tornar-se um recurso comum é algo fundamental para o sucesso de uma referência de pangenoma humano”, disse Miga. “Tem que ter a capacidade de ser acessível e aberto em todo o mundo a todos os pesquisadores, para que possamos usá-lo como base”.
A equipe HPRC está focada na divulgação para garantir que o pangenoma seja um recurso útil que será utilizado em clínicas em todo o mundo. Isso significa facilitar anotações, feedback e contribuições dos pesquisadores que realizam estudos usando a referência do pangenoma.
“O rascunho do pangenoma é uma importante prova de princípios que esperamos influenciar muitas pessoas e fazê-las pensar sobre o pangenoma e como isso pode afetar seu trabalho”, disse Paten. “Olhando para o futuro, vemos muito envolvimento com outros grupos – são necessárias muitas pessoas diferentes para construir algo que se tornará um grande recurso da comunidade”.
Juntamente com o foco na acessibilidade, o projeto HPRC tem uma equipe de ética dedicada focada nas implicações sociais e legais deste projeto. Eles estão trabalhando para antecipar questões desafiadoras e ajudar a orientar o consentimento informado, priorizar o estudo de diferentes amostras, explorar possíveis questões regulatórias relacionadas à adoção clínica e trabalhar com comunidades internacionais e indígenas para incorporar suas sequências genômicas nesses esforços mais amplos.
Continuando o legado e o trabalho futuro
O pangenoma humano é uma continuação de esforços de décadas de cientistas da UC Santa Cruz para entender o código biológico subjacente à vida humana.
Em 2000, Jim Kent, então aluno de pós-graduação da UCSC e agora cientista pesquisador do Genomics Institute e diretor do UCSC Genome Browser, escreveu o código que reuniu o primeiro rascunho funcional do genoma humano. Os cientistas da UCSC o publicaram com acesso aberto a qualquer um que quisesse usá-lo. Desde então, a UCSC tem estado na vanguarda da pesquisa genômica.
Em abril de 2022, Karen Miga da UCSC co-liderou o consórcio Telomere-to-Telomere para montar o primeiro sequenciamento completo de um genoma humano, preenchendo regiões de referência complexas e ausentes que há muito iludiam os cientistas.
“Desde 2000, temos uma série de representações cada vez mais precisas de um genoma”, disse David Haussler, diretor científico do Instituto de Genômica da UCSC, que liderou a equipe da UCSC no Projeto Genoma Humano original e assessora o projeto pangenoma. “Mas não importa o quão precisamente você represente um genoma, isso não vai representar toda a humanidade. Agora é um ponto de virada: não mais a genômica do genoma humano padrão, mas a genômica para todos”.
Os pesquisadores estão progredindo em direção ao objetivo de completar o pangenoma completo até 2024. A equipe está recrutando novos indivíduos para representar algumas populações não incluídas no Projeto 1000 Genomas, particularmente pessoas de ascendência africana e do Oriente Médio. Miga, como diretor do Centro de Produção de Dados da UCSC, liderará esses esforços daqui para frente.
Além de completar a referência final do pangenoma, os pesquisadores estão trabalhando para formar um projeto internacional de pangenoma humano que estabeleceria parcerias com pesquisadores de todo o mundo. Essas parcerias incluiriam uma troca bidirecional de habilidades e conhecimento, com o objetivo de colocar as habilidades e a tecnologia necessárias para criar genomas de referência de alta qualidade nas mãos de pesquisadores em todo o mundo, para que eles possam realizar suas próprias pesquisas.
Outros pesquisadores da UCSC no artigo principal incluem Marina Haukness, Glenn Hickey, Julian Lucas, Jean Monlong, Xian Chang, Jordan Eizenga, Charles Markello, Adam Novak, Hugh Olsen e Trevor Pesout.
Outras instituições envolvidas no Consórcio de Referência do Pangenoma Humano podem ser encontradas na página principal do projeto.
Financiamento para o HPRC foi fornecido principalmente pelo Instituto Nacional de Pesquisa do Genoma Humano.
.