.
Novos padrões de dados foram criados para modelos de IA.
Os aspirantes a padeiros são frequentemente chamados a adaptar receitas premiadas com base em diferentes configurações de cozinha. Alguém pode usar um batedor de ovos em vez de uma batedeira para fazer biscoitos de chocolate premiados, por exemplo.
Ser capaz de reproduzir uma receita em diferentes situações e com configurações variadas é fundamental tanto para chefs talentosos quanto para cientistas da computação, os quais enfrentam um problema semelhante de adaptar e reproduzir suas próprias “receitas” ao tentar validar e trabalhar com novos modelos de IA. Esses modelos têm aplicações em campos científicos que vão desde a análise climática até a pesquisa do cérebro.
“Quando falamos sobre dados, temos uma compreensão prática dos ativos digitais com os quais lidamos”, disse Eliu Huerta, cientista e líder de IA Translacional no Laboratório Nacional de Argonne do Departamento de Energia dos EUA (DOE). “Com um modelo de IA, é um pouco menos claro; estamos falando de dados estruturados de maneira inteligente, ou é computação, software ou uma mistura?”
Em um novo estudo, Huerta e seus colegas articularam um novo conjunto de padrões para gerenciar modelos de IA. Adaptados de pesquisas recentes sobre gerenciamento automatizado de dados, esses padrões são chamados de FAIR, que significa localizável, acessível, interoperável e reutilizável.
“Ao tornar os modelos de IA FAIR, não precisamos mais construir cada sistema do zero a cada vez”, disse o cientista computacional da Argonne, Ben Blaiszik. “Fica mais fácil reutilizar conceitos de diferentes grupos, ajudando a criar polinização cruzada entre equipes.”
De acordo com Huerta, o fato de muitos modelos de IA atualmente não serem FAIR representa um desafio para a descoberta científica. “Para muitos estudos que foram feitos até hoje, é difícil obter acesso e reproduzir os modelos de IA referenciados na literatura”, disse ele. “Ao criar e compartilhar modelos FAIR AI, podemos reduzir a quantidade de duplicação de esforços e compartilhar as melhores práticas de como usar esses modelos para possibilitar uma grande ciência.”
Para atender às necessidades de uma comunidade diversificada de usuários, Huerta e seus colegas combinaram um conjunto exclusivo de gerenciamento de dados e plataformas de computação de alto desempenho para estabelecer um protocolo FAIR e quantificar o “FAIR-ness” dos modelos de IA. Os pesquisadores emparelharam dados FAIR publicados em um repositório online chamado Materials Data Facility, com modelos FAIR AI publicados em outro repositório online chamado Data and Learning Hub for Science, bem como recursos de IA e supercomputação no Argonne Leadership Computing Facility (ALCF ). Dessa forma, os pesquisadores conseguiram criar uma estrutura computacional que poderia ajudar a conectar vários hardwares e softwares, criando modelos de IA que poderiam ser executados de maneira semelhante entre plataformas e produziriam resultados reproduzíveis. O ALCF é uma instalação de usuário do DOE Office of Science.
Duas chaves para a criação desse framework são as plataformas chamadas funcX e Globus, que permitem aos pesquisadores acessar recursos de computação de alto desempenho diretamente de seus laptops. “FuncX e Globus podem ajudar a transcender as diferenças nas arquiteturas de hardware”, disse o coautor Ian Foster, diretor da divisão Data Science and Learning da Argonne. “Se alguém está usando uma arquitetura de computação e outra pessoa está usando outra, agora temos uma maneira de falar uma linguagem de IA comum. É uma grande parte de tornar a IA mais interoperável.”
No estudo, os pesquisadores usaram um conjunto de dados de exemplo de um modelo de IA que usou dados de difração da Advanced Photon Source de Argonne, também uma instalação do usuário do DOE Office of Science. Para realizar os cálculos, a equipe usou o sistema SambaNova do ALCF AI Testbed e as GPUs NVIDIA (unidades de processamento gráfico) do supercomputador Theta.
“Estamos empolgados em ver os benefícios de produtividade FAIR do compartilhamento de modelos e dados para fornecer a mais pesquisadores acesso a recursos de computação de alto desempenho”, disse Marc Hamilton, vice-presidente de Arquitetura e Engenharia de Soluções da NVIDIA. “Juntos, estamos apoiando o universo em expansão da computação de alto desempenho que combina dados experimentais e operação de instrumentos na borda com IA para aumentar o ritmo da descoberta científica”.
“A SambaNova está entusiasmada com a parceria com pesquisadores do Argonne National Laboratory para buscar inovação na interface de IA e arquiteturas de hardware emergentes”, acrescentou Jennifer Glore, vice-presidente de Engenharia de Clientes da SambaNova Systems. “A IA terá um papel significativo no futuro da computação científica, e o desenvolvimento de princípios FAIR para modelos de IA, juntamente com novas ferramentas, capacitará os pesquisadores a permitir a descoberta autônoma em escala. ALCF AI Testbed.”
Um artigo baseado no estudo, “Princípios FAIR para modelos de IA, com uma aplicação prática para microscopia de difração acelerada de alta energia”, apareceu na Nature Scientific Data em 10 de novembro de 2022.
Além de Huerta, outros autores do estudo incluem Nikil Ravi de Argonne, Pranshu Chaturvedi, Zhengchun Liu, Ryan Chard, Aristana Scourtas, KJ Schmidt, Kyle Chard, Ben Blaiszik e Ian Foster.
A pesquisa foi financiada pelo Escritório de Pesquisa em Computação Científica Avançada do DOE, os Institutos Nacionais de Padrões e Tecnologia, a Fundação Nacional de Ciências e subsídios de Pesquisa e Desenvolvimento Direcionado por Laboratório.
.





