.
Pesquisadores da Macquarie University demonstraram uma nova maneira de vincular registros pessoais e proteger a privacidade. A primeira aplicação é na identificação de casos de doenças genéticas raras. Existem muitas outras aplicações potenciais em toda a sociedade.
A pesquisa será apresentada na 18ª Conferência ACM ASIA sobre Segurança de Computadores e Comunicações em Melbourne em 12 de julho.
Um menino de cinco anos nos Estados Unidos tem uma mutação em um gene chamado GPX4, que ele compartilha com apenas 10 outras crianças no mundo. A condição causa anormalidades esqueléticas e do sistema nervoso central. É provável que existam outras crianças com o distúrbio registradas em centenas de bancos de dados de saúde e diagnóstico em todo o mundo, mas não as conhecemos, porque sua privacidade é protegida por razões legais e comerciais.
Mas e se os registros vinculados à condição pudessem ser encontrados e contados, preservando a privacidade? Pesquisadores do Macquarie University Cyber Security Hub desenvolveram uma técnica para conseguir exatamente isso. A equipe inclui o Dr. Dinusha Vatsalan e o professor Dali Kaafar da Escola de Computação da Universidade e o pai do menino, o engenheiro de software Sr. Sanath Kumar Ramesh, que é CEO da OpenTreatments Foundation em Seattle, Washington.
“Estou muito entusiasmado com este trabalho”, diz Ramesh, cuja fundação iniciou e apoiou o projeto. “Saber quantas pessoas têm uma condição sustenta suposições econômicas. Se antes se pensava que uma condição tinha 15 pacientes e agora sabemos, tendo obtido dados de empresas de testes de diagnóstico, que existem 100 pacientes, isso aumenta enormemente o tamanho do mercado.
“Isso teria um impacto econômico significativo. A avaliação de uma empresa que trabalha com a doença aumentaria. O custo do produto cairia. A maneira como as seguradoras contabilizam os custos médicos mudaria. As empresas de diagnóstico [the condition] mais. E você pode começar a fazer epidemiologia com mais precisão.”
Vincular e contar registros de dados pode parecer simples, mas, na realidade, envolve muitos problemas, diz o professor Kaafar. Primeiro, porque estamos lidando com uma doença rara, não há um banco de dados centralizado e os registros estão espalhados por todo o mundo. “Neste caso, em centenas de bancos de dados”, diz ele. “E do ponto de vista comercial, os dados são preciosos e as empresas que os possuem não estão necessariamente interessadas em compartilhá-los.”
Então, há questões técnicas de correspondência de dados que são registrados, codificados e armazenados de maneiras diferentes, e contabilização de indivíduos que são contados duas vezes em e entre diferentes bancos de dados. E, além de tudo isso, estão as considerações de privacidade. “Estamos lidando com dados de saúde muito, muito sensíveis”, diz o professor Kaafar.
Esses dados pessoais não são necessários para uma simples estimativa do número de pacientes e para fins epidemiológicos. Mas, até agora, era necessário garantir que os registros fossem únicos e pudessem ser vinculados.
Vatsalan e seus colegas usaram uma técnica conhecida como codificação de filtro Bloom com privacidade diferencial. Eles criaram um conjunto de algoritmos que deliberadamente introduz ruído suficiente nos dados para borrar detalhes precisos a ponto de não poderem ser extraídos de registros individuais, mas ainda permite que os padrões de registros da mesma condição de doença sejam combinados e agrupados.
A precisão de sua técnica foi então avaliada usando dados de registro de eleitores da Carolina do Norte. E os resultados mostraram que o método levou a uma taxa de erro insignificante com garantia de um nível muito alto de privacidade, mesmo em conjuntos de dados altamente corrompidos. A técnica supera significativamente os métodos existentes.
Além de detectar e contar doenças raras, a pesquisa tem muitas outras aplicações; para determinar a conscientização de um novo produto em marketing, por exemplo, ou em segurança cibernética para rastrear o número de visualizações únicas de postagens específicas em mídias sociais.
Mas é a aplicação a doenças raras que apaixona os pesquisadores da Macquarie University. “Não há sensação melhor para um pesquisador do que ver a tecnologia que ele vem desenvolvendo tendo um impacto real e tornando o mundo um lugar melhor”, diz o professor Kaafar. “Neste caso, é tão real e tão importante.”
A OpenTreatment Foundation financiou parcialmente a pesquisa.
“A Fundação queria tornar este projeto totalmente de código aberto desde o início”, acrescenta o Dr. Vatsalan. “Portanto, o algoritmo que implementamos está sendo publicado abertamente.”
Os autores apresentarão suas pesquisas na 18ª Conferência ACM ASIA sobre Segurança de Computadores e Comunicações (ACM ASIACCS 2023) em Melbourne em 12 de julho.
.