.
Um novo método estatístico fornece uma maneira mais eficiente de descobrir mudanças biologicamente significativas em dados genômicos que abrangem várias condições – como tipos de células ou tecidos.
Os estudos do genoma inteiro produzem enormes quantidades de dados, variando de milhões de sequências individuais de DNA a informações sobre onde e quantos dos milhares de genes são expressos até a localização de elementos funcionais em todo o genoma. Devido à quantidade e complexidade dos dados, comparar diferentes condições biológicas ou entre estudos realizados por laboratórios separados pode ser estatisticamente desafiador.
“A dificuldade quando você tem várias condições é como analisar os dados juntos de uma forma que possa ser estatisticamente poderosa e computacionalmente eficiente”, disse Qunhua Li, professor associado de estatística da Penn State. “Os métodos existentes são computacionalmente caros ou produzem resultados difíceis de interpretar biologicamente. Desenvolvemos um método chamado CLIMB que melhora os métodos existentes, é computacionalmente eficiente e produz resultados biologicamente interpretáveis. Testamos o método em três tipos de dados genômicos coletados de células hematopoiéticas – relacionadas às células-tronco do sangue – mas o método também pode ser usado em análises de outros dados ‘ômicos’”.
Os pesquisadores descrevem o método CLIMB (Composite LIkelihood eMpirical Bayes) em um artigo publicado on-line em 12 de novembro na revista Natureza Comunicações.
“Em experimentos em que há tanta informação, mas de relativamente poucos indivíduos, ajuda poder usar a informação da maneira mais eficiente possível”, disse Hillary Koch, estudante de pós-graduação da Penn State na época da pesquisa e agora estatística sênior. na Moderna. “Existem vantagens estatísticas em poder olhar tudo junto e até mesmo usar informações de experimentos relacionados. O CLIMB nos permite fazer exatamente isso.”
O método CLIMB usa princípios de duas técnicas tradicionais para analisar dados em várias condições. Uma técnica usa uma série de comparações pareadas entre condições, mas torna-se cada vez mais difícil de interpretar à medida que condições adicionais são adicionadas.
Uma técnica diferente combina o padrão de atividade de cada sujeito em condições em um “vetor de associação”, por exemplo, um gene sendo regulado positivamente, regulado negativamente ou sem alteração em cada um dos muitos tipos de células. O vetor de associação reflete diretamente o padrão de especificidade da condição e é fácil de interpretar. No entanto, como muitas combinações diferentes são possíveis mesmo quando há apenas algumas condições, os cálculos são extremamente intensos computacionalmente. Para superar esse desafio, essa segunda abordagem por conta própria faz suposições sobre como simplificar os dados que nem sempre são corretos.
“CLIMB usa aspectos de ambas as abordagens”, disse Koch. “Em última análise, analisamos vetores de associação, mas primeiro usamos análises de pares para identificar os padrões que provavelmente existem. Em vez de fazer suposições sobre os dados, usamos as informações de pares para eliminar combinações que os dados não suportam fortemente. Isso reduz drasticamente o espaço de padrões possíveis em condições que, de outra forma, tornariam os cálculos tão intensivos.”
Depois de compilar o conjunto reduzido de possíveis vetores de associação, o método agrupa assuntos que seguem o mesmo padrão em todas as condições. Por exemplo, os resultados poderiam dizer aos pesquisadores conjuntos de genes que são regulados coletivamente em alguns tipos de células, mas regulados negativamente em outros.
Os pesquisadores testaram seu método em dados coletados de experimentos usando uma tecnologia chamada RNA-seq, que pode medir a quantidade de RNA produzida a partir de todos os genes sendo expressos em uma célula, para examinar se certos genes ajudam a determinar quais tipos de células o tronco hematopoiético célula finalmente se transforma.
“Em comparação com o popular método pareado, nossos resultados são mais específicos”, disse Li. “Nossa lista de genes é mais sucinta e biologicamente mais relevante.”
Enquanto o método tradicional pareado identificou de seis a sete mil genes de interesse, o CLIMB produziu uma lista muito mais restrita de dois a três mil genes, com pelo menos mil desses genes identificados em ambas as análises.
“Os diferentes tipos de células sanguíneas têm uma variedade de funções – algumas se tornam glóbulos vermelhos e outras se tornam células imunes – e queríamos saber quais genes têm maior probabilidade de estar envolvidos na determinação de cada tipo de célula distinto”, disse Ross Hardison, T. Ming Chu Professor de Bioquímica e Biologia Molecular na Penn State. “A abordagem CLIMB extraiu alguns genes importantes; alguns deles já conhecíamos e outros acrescentam ao que sabemos. Mas a diferença é que esses resultados foram muito mais específicos e muito mais interpretáveis do que os de análises anteriores.”
Os pesquisadores também usaram o CLIMB em dados produzidos a partir de uma tecnologia experimental diferente, ChIP-seq, que pode identificar onde ao longo do genoma certas proteínas se ligam ao DNA. Eles exploraram como a ligação de uma proteína chamada CTCF – um fator de transcrição que ajuda a estabelecer as interações necessárias para a regulação do gene no núcleo da célula – muda ou não em 17 populações de células que derivam da mesma célula-tronco hematopoiética. A análise CLIMB identificou categorias distintas de sítios ligados a CTCF, alguns que revelam papéis para este fator de transcrição em todas as células sanguíneas e outros mostrando papéis em tipos de células específicos.
Por fim, a equipe explorou dados de outra tecnologia experimental, chamada DNase-seq, que pode identificar locais de regiões reguladoras, para comparar a acessibilidade da cromatina – um complexo de DNA e proteínas – em 38 tipos de células humanas.
“Para todos os três testes, queríamos ver se nossos resultados tinham relevância biológica, então comparamos nossos resultados com dados independentes, como estudos de sequenciamento de alto rendimento de modificações de histonas e pegada de fator de transcrição”. disse Koch. “Em cada caso, nossos resultados correspondem a esses outros métodos. Em seguida, gostaríamos de melhorar a velocidade computacional de nosso método e aumentar o número de condições que ele pode manipular. Por exemplo, dados de acessibilidade de cromatina estão disponíveis para muitos outros tipos de células , então adoraríamos aumentar a escala do CLIMB.”
Além de Li, Koch e Hardison, a equipe de pesquisa inclui Cheryl Keller, Guanjue Xiang e Belinda Giardine na Penn State, Feipeng Zhang na Xi’an Jiaotong University na China e Yicheng Wang na University of British Columbia no Canadá. Esta pesquisa foi apoiada pelos Institutos Nacionais de Saúde, incluindo o Instituto Nacional de Ciências Médicas Gerais, o Instituto Nacional de Pesquisa do Genoma Humano e o Instituto Nacional de Diabetes e Doenças Digestivas e Renais.
.