Estudos/Pesquisa

A IA permite o estudo de tumores cerebrais em larga escala, sem compartilhar dados do paciente – Strong The One

.

Pesquisadores da Penn Medicine e da Intel Corporation lideraram o maior esforço global de aprendizado de máquina até o momento para agregar com segurança o conhecimento de varreduras cerebrais de 6.314 pacientes com glioblastoma (GBM) em 71 locais em todo o mundo e desenvolver um modelo que pode aprimorar a identificação e a previsão de limites em três subcompartimentos tumorais, sem comprometer a privacidade do paciente. Suas descobertas foram publicadas hoje na Natureza Comunicações.

“Este é o maior e mais diversificado conjunto de dados de pacientes com glioblastoma já considerado na literatura e foi possível graças ao aprendizado federado”, disse o autor sênior Spyridon Bakas, PhD, professor assistente de Patologia e Medicina Laboratorial e Radiologia, no Perelman School of Medicine da Universidade da Pensilvânia. “Quanto mais dados pudermos inserir nos modelos de aprendizado de máquina, mais precisos eles se tornarão, o que, por sua vez, pode melhorar nossa capacidade de entender, tratar e remover glioblastoma em pacientes com mais precisão”.

Os pesquisadores que estudam condições raras, como GBM, um tipo agressivo de tumor cerebral, geralmente têm populações de pacientes limitadas à sua própria instituição ou localização geográfica. Devido à legislação de proteção de privacidade, como o Health Insurance Portability and Accountability Act de 1996 (HIPAA) nos Estados Unidos e o Regulamento Geral de Proteção de Dados (GDPR) na Europa, as colaborações de compartilhamento de dados entre instituições sem comprometer a privacidade dos dados do paciente são um grande obstáculo para muitos profissionais de saúde.

Uma abordagem de aprendizado de máquina mais recente, chamada aprendizado federado, oferece uma solução para esses obstáculos, trazendo o algoritmo de aprendizado de máquina para os dados em vez de seguir o paradigma atual de centralizar dados para os algoritmos. O aprendizado federado – uma abordagem implementada pela primeira vez pelo Google para a funcionalidade de autocorreção de teclados – treina um algoritmo de aprendizado de máquina em vários dispositivos ou servidores descentralizados (neste caso, instituições) contendo amostras de dados locais, sem realmente trocá-los. Foi demonstrado anteriormente que permite que médicos de instituições em diferentes países colaborem em pesquisas sem compartilhar dados privados de pacientes.

Bakas liderou este enorme estudo colaborativo junto com os primeiros autores Sarthak Pati, MS, desenvolvedor sênior de software no Penn’s Center for Biomedical Image Computing & Analytics (CBICA), Ujjwal Baid, PhD, pesquisador de pós-doutorado na CBICA, Brandon Edwards, PhD, pesquisador cientista da Intel Labs e Micah Sheller, cientista pesquisador da Intel Labs.

“Os dados ajudam a impulsionar a descoberta, especialmente em cânceres raros, onde os dados disponíveis podem ser escassos. A abordagem federada que descrevemos permite o acesso ao máximo de dados enquanto reduz os encargos institucionais para o compartilhamento de dados”. disse Jill Barnholtz-Sloan, PhD, professora adjunta da Case Western Reserve University School of Medicine.

O modelo seguiu uma abordagem por etapas. A primeira fase, denominada modelo inicial público, foi pré-treinado usando dados disponíveis publicamente do desafio International Brain Tumor Segmentation (BraTS). O modelo foi encarregado de identificar os limites de três subcompartimentos do tumor GBM: “aumento do tumor” (ET), representando a quebra da barreira hematoencefálica vascular dentro do tumor; o “núcleo do tumor” (TC), que inclui o ET e a parte que mata o tecido, e representa a parte do tumor relevante para os cirurgiões que os removem; e o “tumor inteiro” (TW), que é definido pela união do TC e do tecido infiltrado, que é toda a área que seria tratada com radiação.

Primeiro, os dados de 231 casos de pacientes de 16 locais, e o modelo resultante foi validado em relação aos dados locais de cada local. A segunda etapa, chamada de modelo de consenso preliminar, usou o modelo inicial público e incorporou mais dados de 2.471 casos de pacientes de 35 locais, o que melhorou sua precisão. A fase final ou modelo de consenso finalusou o modelo atualizado e incorporou a maior quantidade de dados de 6.314 casos de pacientes (3.914.680 imagens) em 71 locais, em 6 continentes, para otimizar ainda mais e testar a generalização de dados não vistos.

Como controle para cada etapa, os pesquisadores excluíram 20% do total de casos contribuídos por cada local participante do processo de treinamento do modelo e os usaram como “dados de validação local”. Isso lhes permitiu avaliar a precisão do método colaborativo. Para avaliar melhor a capacidade de generalização dos modelos, seis locais não foram envolvidos em nenhuma das etapas de treinamento para representar uma população de dados “fora da amostra” completamente inédita de 590 casos. Notavelmente, o site do American College of Radiology validou seu modelo usando dados de um estudo nacional de ensaio clínico.

Após o treinamento do modelo, o modelo de consenso final obteve melhorias significativas de desempenho em relação aos dados de validação local dos colaboradores. O modelo de consenso final teve uma melhoria de 27% na detecção de limites ET, 33% na detecção de limites TC e 16% para detecção de limite WT. A melhoria do resultado é uma indicação clara do benefício que pode ser obtido com o acesso a mais casos, não só para aprimorar o modelo, mas também para validá-lo.

Olhando para o futuro, os autores esperam que, devido à metodologia genérica de aprendizado federado, suas aplicações na pesquisa médica possam ser abrangentes, aplicando-se não apenas a outros tipos de câncer, mas a outras condições, como neurodegeneração e além. Eles também antecipam mais pesquisas para demonstrar que o aprendizado federado pode cumprir os protocolos de segurança e privacidade em todo o mundo.

Funding for this research was provided by the National Institutes of Health (U01CA242871, R01NS042645, U24CA189523, U24CA215109, U01CA248226, P30CA510081231, R50CA211270, UL1TR001433, R21EB0302091232, R37CA214955, R01CA233888, U10CA21661, U10CA37422, U10CA180820,1235U10CA180794, U01CA176110, R01CA082500, CA079778, CA080098 , CA180794, CA180820,1236CA180822, CA180868) e National Science Foundation (2040532, 2040462).

A Intel Corporation forneceu equipe de engenheiros de software e experiência em proteção de privacidade para o projeto, durante o desenvolvimento do software utilizado.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo