.
Se um cientista quisesse prever as correntes oceânicas para entender como a poluição viaja após um derramamento de óleo, ele poderia usar uma abordagem comum que analisa as correntes que viajam entre 10 e 200 quilômetros. Ou ela pode escolher um modelo mais novo que também inclua correntes mais curtas. Isso pode ser mais preciso, mas também pode exigir o aprendizado de um novo software ou a execução de novos experimentos computacionais. Como saber se valerá a pena o tempo, custo e esforço para usar o novo método?
Uma nova abordagem desenvolvida por pesquisadores do MIT pode ajudar os cientistas de dados a responder a essa pergunta, estejam eles analisando estatísticas sobre correntes oceânicas, crimes violentos, capacidade de leitura de crianças ou qualquer outro tipo de conjunto de dados.
A equipe criou uma nova medida, conhecida como “valor c”, que ajuda os usuários a escolher entre as técnicas com base na chance de um novo método ser mais preciso para um conjunto de dados específico. Essa medida responde à pergunta “é provável que o novo método seja mais preciso para esses dados do que a abordagem comum?”
Tradicionalmente, os estatísticos comparam métodos calculando a média da precisão de um método em todos os conjuntos de dados possíveis. Mas só porque um novo método é melhor para todos os conjuntos de dados, em média, não significa que ele realmente fornecerá uma estimativa melhor usando um conjunto de dados específico. As médias não são específicas do aplicativo.
Assim, pesquisadores do MIT e de outros lugares criaram o valor-c, que é uma ferramenta específica de conjunto de dados. Um valor c alto significa que é improvável que um novo método seja menos preciso do que o método original em um problema de dados específico.
Em seu trabalho de prova de conceito, os pesquisadores descrevem e avaliam o valor c usando problemas de análise de dados do mundo real: modelagem de correntes oceânicas, estimativa de crimes violentos em bairros e aproximação da capacidade de leitura dos alunos nas escolas. Eles mostram como o valor c pode ajudar estatísticos e analistas de dados a obter resultados mais precisos, indicando quando usar métodos alternativos de estimativa que, de outra forma, poderiam ter ignorado.
“O que estamos tentando fazer com este trabalho em particular é criar algo específico para dados. A noção clássica de risco é realmente natural para alguém desenvolvendo um novo método. Essa pessoa quer que seu método funcione bem para todos os seus usuários em média. Mas um usuário de um método quer algo que funcione em seu problema individual. Mostramos que o valor c é uma prova de conceito muito prática nessa direção”, diz a autora sênior Tamara Broderick, professora associada no Departamento de Engenharia Elétrica e Ciência da Computação (EECS) e membro do Laboratório de Sistemas de Informação e Decisão e do Instituto de Dados, Sistemas e Sociedade.
Ela é acompanhada no papel por Brian Trippe PhD ’22, um ex-aluno de pós-graduação no grupo de Broderick que agora é um pós-doutorando na Universidade de Columbia; e Sameer Deshpande ’13, um ex-pós-doutorado do grupo de Broderick que agora é professor assistente na Universidade de Wisconsin em Madison. Uma versão aceita do artigo é publicada on-line no Jornal da Associação Estatística Americana.
Avaliando estimadores
O valor c é projetado para ajudar com problemas de dados nos quais os pesquisadores procuram estimar um parâmetro desconhecido usando um conjunto de dados, como estimar a capacidade média de leitura do aluno a partir de um conjunto de dados de resultados de avaliações e respostas de pesquisas de alunos. Um pesquisador tem dois métodos de estimativa e deve decidir qual usar para esse problema específico.
O melhor método de estimativa é aquele que resulta em menos “perda”, o que significa que a estimativa estará mais próxima da verdade. Considere novamente a previsão das correntes oceânicas: talvez desviar alguns metros por hora não seja tão ruim, mas desviar muitos quilômetros por hora torna a estimativa inútil. A verdade fundamental é desconhecida; o cientista está tentando estimar isso. Portanto, nunca se pode realmente calcular a perda de uma estimativa para seus dados específicos. É isso que torna a comparação de estimativas um desafio. O valor c ajuda um cientista a enfrentar esse desafio.
A equação do valor c usa um conjunto de dados específico para calcular a estimativa com cada método e, em seguida, mais uma vez para calcular o valor c entre os métodos. Se o valor c for grande, é improvável que o método alternativo seja pior e produza estimativas menos precisas do que o método original.
“No nosso caso, estamos assumindo que você deseja, de forma conservadora, permanecer com o estimador padrão e só deseja ir para o novo estimador se estiver muito confiante sobre isso. Com um valor c alto, é provável que a nova estimativa é mais preciso. Se você obtiver um valor c baixo, não poderá dizer nada conclusivo. Você pode até ter se saído melhor, mas simplesmente não sabe”, explica Broderick.
Sondando a teoria
Os pesquisadores colocaram essa teoria à prova avaliando três problemas de análise de dados do mundo real.
Por um lado, eles usaram o valor c para ajudar a determinar qual abordagem é melhor para modelar as correntes oceânicas, um problema que Trippe vem enfrentando. Modelos precisos são importantes para prever a dispersão de contaminantes, como a poluição de um derramamento de óleo. A equipe descobriu que estimar as correntes oceânicas usando várias escalas, uma maior e outra menor, provavelmente produz maior precisão do que usar apenas medições em escala maior.
“Pesquisadores dos oceanos estão estudando isso, e o valor c pode fornecer algum ‘poder’ estatístico para apoiar a modelagem em escala menor”, diz Broderick.
Em outro exemplo, os pesquisadores procuraram prever crimes violentos em setores censitários na Filadélfia, um aplicativo que Deshpande vem estudando. Usando o valor-c, eles descobriram que é possível obter estimativas melhores sobre as taxas de crimes violentos incorporando informações sobre crimes não violentos no nível do setor censitário à análise. Eles também usaram o valor-c para mostrar que o aproveitamento adicional de dados de crimes violentos de áreas censitárias vizinhas na análise provavelmente não fornecerá melhorias adicionais na precisão.
“Isso não significa que não haja uma melhora, apenas significa que não nos sentimos confiantes em dizer que você vai conseguir”, diz ela.
Agora que provaram o valor-c na teoria e mostraram como ele pode ser usado para lidar com problemas de dados do mundo real, os pesquisadores querem expandir a medida para mais tipos de dados e um conjunto mais amplo de classes de modelo.
O objetivo final é criar uma medida que seja geral o suficiente para muitos outros problemas de análise de dados e, embora ainda haja muito trabalho a ser feito para atingir esse objetivo, Broderick diz que este é um primeiro passo importante e empolgante na direção certa.
Esta pesquisa foi apoiada, em parte, por uma concessão da Agência de Projetos de Pesquisa Avançada-Energia, um Prêmio CARREIRA da Fundação Nacional de Ciências, o Escritório de Pesquisa Naval e a Fundação de Pesquisa Alumni de Wisconsin.
.