.
A pesquisa do laboratório de Fangqiong Ling na Universidade de Washington em St. .
Mas antes que esse trabalho pudesse ser feito, Ling precisava saber: como você pode descobrir o número de indivíduos representados em uma amostra aleatória de águas residuais?
Um encontro casual com um colega ajudou Ling, professor assistente do Departamento de Energia, Engenharia Ambiental e Química da McKelvey School of Engineering, a desenvolver um modelo de aprendizado de máquina que usava a variedade de micróbios encontrados em águas residuais para descobrir quantas pessoas eles representavam. No futuro, esse método pode vincular outras propriedades em águas residuais a dados de nível individual.
A pesquisa foi publicada na revista PLOS Biologia Computacional.
O problema era direto: “Se você pegar apenas uma colher de esgoto, não saberá quantas pessoas está medindo”, disse Ling. Isso é contrário à maneira como os estudos são normalmente projetados.
“Normalmente, quando você projeta seu experimento, projeta o tamanho da amostra, sabe quantas pessoas está medindo”, disse Ling. Antes que ela pudesse procurar uma correlação entre SARS-CoV-2 e o número de pessoas com COVID, ela teve que descobrir quantas pessoas estavam representadas na água que estava testando.
Inicialmente, Ling pensou que o aprendizado de máquina poderia descobrir uma relação direta entre a diversidade de micróbios e o número de pessoas que eles representavam, mas as simulações, feitas com um aprendizado de máquina “pronto para uso”, não deram certo. .
Então Ling teve um encontro casual com Likai Chen, um professor assistente de matemática e estatística em Artes e Ciências. Os dois perceberam que compartilhavam o interesse em trabalhar com dados novos e complexos. Ling mencionou que estava trabalhando em um projeto para o qual Chen poderia contribuir.
“Ela compartilhou o problema comigo e eu disse, isso é realmente algo que podemos fazer”, disse Chen. Acontece que Chen estava trabalhando em um problema que usava uma técnica que Ling também achou útil.
A chave para descobrir quantas pessoas individuais foram representadas em uma amostra está relacionada ao fato de que, quanto maior a amostra, mais provável é que ela se pareça com a média. Mas, na realidade, os indivíduos tendem a não ser exatamente “medianos”. Portanto, se uma amostra se parece com uma amostra média de microbiota, é provável que seja composta por muitas pessoas. Quanto mais longe da média, maior a probabilidade de representar um indivíduo.
“Mas agora estamos lidando com dados de alta dimensão, certo?” Chen disse. Existem inúmeras maneiras de agrupar esses diferentes micróbios para formar uma amostra. “Então isso significa que temos que descobrir como agregamos essas informações em diferentes locais?”
Usando essa intuição básica – e muita matemática – Chen trabalhou com Ling para desenvolver um algoritmo de aprendizado de máquina mais personalizado que poderia, se treinado em amostras reais de microbiota de mais de 1.100 pessoas, determinar quantas pessoas estavam representadas em um esgoto. amostra (essas amostras não estavam relacionadas aos dados de treinamento).
“É muito mais rápido e pode ser treinado em um laptop”, disse Ling. E não é apenas útil para o microbioma, mas também, com exemplos suficientes – dados de treinamento – esse algoritmo pode usar vírus do viroma humano ou produtos químicos metabólicos para vincular indivíduos a amostras de águas residuais.
“Este método foi usado para testar nossa capacidade de medir o tamanho da população”, disse Ling. Mas vai muito além. “Agora estamos desenvolvendo uma estrutura para permitir a validação entre os estudos.”
Fonte da história:
Materiais fornecidos por Universidade de Washington em St. Louis. Original escrito por Brandie Jefferson. Observação: o conteúdo pode ser editado quanto ao estilo e tamanho.
.