Kapoor e Narayanan organizaram um workshop no final do mês passado para chamar a atenção para o que eles chamam de “crise de reprodutibilidade” na ciência que faz uso de aprendizado de máquina. Eles esperavam cerca de 30 participantes, mas receberam inscrições de mais de 1.500 pessoas, uma surpresa que, segundo eles, sugere que os problemas com o aprendizado de máquina na ciência são generalizados.
Durante o evento, os palestrantes convidados relataram vários exemplos de situações em que a IA foi mal utilizada, de áreas como medicina e ciências sociais. Michael Roberts, pesquisador sênior associado da Universidade de Cambridge, discutiu problemas com dezenas de artigos que afirmam usar aprendizado de máquina para combater o Covid-19, incluindo casos em que os dados foram distorcidos porque vieram de uma variedade de máquinas de imagem diferentes. Jessica Hullman, professora associada da Northwestern University, comparou problemas com estudos usando aprendizado de máquina ao fenômeno de grandes resultados em psicologia que se mostraram impossíveis de replicar. Em ambos os casos, diz Hullman, os pesquisadores tendem a usar poucos dados e interpretar mal a significância estatística dos resultados.
Momin Malik, cientista de dados da Clínica Mayo, foi convidado a falar sobre seu próprio trabalho rastreando usos problemáticos de aprendizado de máquina na ciência. Além de erros comuns na implementação da técnica, diz ele, os pesquisadores às vezes aplicam aprendizado de máquina quando é a ferramenta errada para o trabalho.
Malik aponta para um exemplo proeminente de aprendizado de máquina produzindo resultados enganosos : Google Flu Trends, uma ferramenta desenvolvida pela empresa de pesquisa em 2008 que visava usar o aprendizado de máquina para identificar surtos de gripe mais rapidamente a partir de logs de consultas de pesquisa digitadas por usuários da web. O Google ganhou publicidade positiva para o projeto, mas falhou espetacularmente em prever o curso da temporada de gripe de 2013. Um estudo independente concluiria mais tarde que o modelo se apegou a termos sazonais que nada têm a ver com a prevalência da gripe. “Você não pode simplesmente jogar tudo em um grande modelo de aprendizado de máquina e ver o que sai”, diz Malik.
Alguns participantes do workshop dizem que pode não ser possível para todos os cientistas tornem-se mestres em aprendizado de máquina, especialmente devido à complexidade de alguns dos problemas destacados. Amy Winecoff, cientista de dados do Centro de Políticas de Tecnologia da Informação de Princeton, diz que, embora seja importante que os cientistas aprendam bons princípios de engenharia de software, dominem técnicas estatísticas e dediquem tempo à manutenção de conjuntos de dados, isso não deve ocorrer à custa de conhecimento do domínio. “Não queremos, por exemplo, que pesquisadores de esquizofrenia saibam muito sobre engenharia de software”, diz ela, mas pouco sobre as causas do transtorno. Winecoff sugere que mais colaboração entre cientistas e cientistas da computação pode ajudar a encontrar o equilíbrio certo.
Embora o uso indevido de aprendizado de máquina na ciência seja um problema em si, também pode ser visto como um indicador de que problemas são provavelmente comuns em projetos de IA corporativos ou governamentais que são menos abertos ao escrutínio externo.
Malik diz que está mais preocupado com a perspectiva de algoritmos de IA mal aplicados causando consequências no mundo real, como negar injustamente a alguém cuidados médicos ou aconselhar injustamente contra a liberdade condicional. “A lição geral é que não é apropriado abordar tudo com aprendizado de máquina”, diz ele. “Apesar da retórica, do hype, dos sucessos e das esperanças, é uma abordagem limitada.”
Kapoor, de Princeton, diz que é vital que as comunidades científicas comecem a pensar sobre o assunto. “A ciência baseada em aprendizado de máquina ainda está em sua infância”, diz ele. “Mas isso é urgente – pode ter consequências muito prejudiciais a longo prazo.”