.
Na jornada do gene à proteína, uma molécula de RNA nascente pode ser cortada e unida, ou emendada, de diferentes maneiras antes de ser traduzida em uma proteína. Esse processo, conhecido como splicing alternativo, permite que um único gene codifique várias proteínas diferentes. O splicing alternativo ocorre em muitos processos biológicos, como quando as células-tronco amadurecem em células específicas do tecido. No contexto da doença, no entanto, o splicing alternativo pode ser desregulado. Portanto, é importante examinar o transcriptoma – ou seja, todas as moléculas de RNA que podem derivar de genes – para entender a causa raiz de uma condição.
No entanto, historicamente tem sido difícil “ler” as moléculas de RNA em sua totalidade porque elas geralmente têm milhares de bases de comprimento. Em vez disso, os pesquisadores contam com o chamado sequenciamento de RNA de leitura curta, que quebra as moléculas de RNA e as sequencia em pedaços muito mais curtos – algo entre 200 a 600 bases, dependendo da plataforma e do protocolo. Programas de computador são então usados para reconstruir as sequências completas de moléculas de RNA. O sequenciamento de RNA de leitura curta pode fornecer dados de sequenciamento altamente precisos, com uma baixa taxa de erro por base de aproximadamente 0,1% (o que significa que uma base é determinada incorretamente para cada 1.000 bases sequenciadas). No entanto, é limitado nas informações que pode fornecer devido ao curto comprimento das leituras de sequenciamento. De muitas maneiras, o sequenciamento de RNA de leitura curta é como quebrar uma imagem grande em várias peças de um quebra-cabeça com a mesma forma e tamanho e, em seguida, tentar montar a imagem novamente.
Recentemente, tornaram-se disponíveis plataformas de “leitura longa” que podem sequenciar moléculas de RNA com mais de 10.000 bases de comprimento de ponta a ponta. Essas plataformas não exigem que as moléculas de RNA sejam quebradas antes de serem sequenciadas, mas têm uma taxa de erro por base muito maior, normalmente entre 5% a 20%. Essa limitação bem conhecida dificultou severamente a adoção generalizada do sequenciamento de RNA de leitura longa. Em particular, a alta taxa de erro tornou difícil determinar a validade de novas moléculas de RNA previamente desconhecidas descobertas em uma determinada condição ou doença.
Para contornar esse problema, pesquisadores do Children’s Hospital of Philadelphia (CHOP) desenvolveram uma nova ferramenta computacional que pode descobrir e quantificar com mais precisão moléculas de RNA a partir desses dados de sequenciamento de RNA de leitura longa, propensos a erros. A ferramenta, chamada ESPRESSO (Error Statistics PRomoted Evaluator of Splice Site Options), foi divulgada hoje na Avanços da Ciência.
“O sequenciamento de RNA de leitura longa é uma tecnologia poderosa que nos permitirá descobrir variações de RNA em doenças genéticas raras e outras condições, como o câncer”, disse Yi Xing, PhD, diretor do Centro de Medicina Computacional e Genômica do CHOP e autor sênior do estudo. “Provavelmente estamos em um ponto de inflexão em como descobrimos e analisamos moléculas de RNA. A transição do sequenciamento de RNA de leitura curta para o de leitura longa representa uma transformação tecnológica empolgante, e ferramentas computacionais que interpretem de forma confiável os dados de sequenciamento de RNA de leitura longa são urgentemente necessárias .”
O ESPRESSO pode descobrir e quantificar com precisão diferentes moléculas de RNA do mesmo gene – conhecidas como isoformas de RNA – usando apenas dados de sequenciamento de RNA de leitura longa propensos a erros. Para fazer isso, a ferramenta computacional compara todas as longas leituras de sequenciamento de RNA de um determinado gene com seu DNA genômico correspondente e, em seguida, usa os padrões de erro de longas leituras individuais para identificar com segurança as junções de emenda – locais onde a molécula de RNA nascente foi cortada e juntaram – bem como suas correspondentes isoformas de RNA de comprimento total. Ao encontrar áreas de correspondências perfeitas entre longas leituras de sequenciamento de RNA e DNA genômico, bem como obter informações em todas as longas leituras de sequenciamento de RNA de um gene, a ferramenta é capaz de identificar junções de splicing altamente confiáveis e isoformas de RNA, incluindo aquelas que não foram previamente documentados em bancos de dados existentes.
Os pesquisadores avaliaram o desempenho do ESPRESSO usando dados simulados e dados de amostras biológicas reais. Eles descobriram que o ESPRESSO tem um desempenho melhor do que várias ferramentas atualmente disponíveis, tanto em termos de descoberta de isoformas de RNA quanto em sua quantificação. Os pesquisadores também geraram e analisaram mais de 1 bilhão de longas leituras de sequenciamento de RNA cobrindo 30 tipos de tecidos humanos e três linhas de células humanas, fornecendo um recurso útil para estudar a variação do transcriptoma humano na resolução de isoformas de RNA de comprimento total.
“O ESPRESSO aborda um problema antigo de sequenciamento de RNA de leitura longa e pode abrir novas oportunidades de descoberta”, disse o Dr. Xing. “Prevemos que o ESPRESSO será uma ferramenta útil para os pesquisadores explorarem o repertório de células de RNA em vários ambientes biomédicos e clínicos”.
Este trabalho foi apoiado em parte pela Immuno-Oncology Translational Network (IOTN) da Cancer Moonshot Initiative do National Cancer Institute (U01CA233074), outros institutos nacionais de financiamento de saúde (R01GM088342, R01GM121827 e R56HG012310), juntamente com um National Institutes of Health Bolsa de Treinamento T32 em Genômica Computacional (T32HG000046).
.




