Estudos/Pesquisa

Não muito grande: o aprendizado de máquina doma enormes conjuntos de dados

.

Um algoritmo de aprendizado de máquina demonstrou a capacidade de processar dados que excedem a memória disponível de um computador, identificando os principais recursos de um enorme conjunto de dados e dividindo-os em lotes gerenciáveis ​​que não sobrecarregam o hardware do computador. Desenvolvido no Laboratório Nacional de Los Alamos, o algoritmo estabeleceu um recorde mundial para fatorar enormes conjuntos de dados durante um teste no Summit do Laboratório Nacional de Oak Ridge, o quinto supercomputador mais rápido do mundo.

Igualmente eficiente em laptops e supercomputadores, o algoritmo altamente escalável resolve gargalos de hardware que impedem o processamento de informações de aplicações ricas em dados na pesquisa do câncer, imagens de satélite, redes de mídia social, ciência de segurança nacional e pesquisa de terremotos, para citar apenas alguns.

“Desenvolvemos uma implementação ‘sem memória’ do método de fatoração de matriz não negativa que permite fatorar conjuntos de dados maiores do que era possível anteriormente em um determinado hardware”, disse Ismael Boureima, físico computacional do Laboratório Nacional de Los Alamos. Boureima é o primeiro autor do artigo em O Jornal de Supercomputação no algoritmo de quebra de recorde. “Nossa implementação simplesmente divide o big data em unidades menores que podem ser processadas com os recursos disponíveis. Conseqüentemente, é uma ferramenta útil para acompanhar o crescimento exponencial de conjuntos de dados.”

“A análise de dados tradicional exige que os dados se ajustem às restrições de memória. Nossa abordagem desafia essa noção”, disse Manish Bhattarai, cientista de aprendizado de máquina em Los Alamos e coautor do artigo. “Introduzimos uma solução de falta de memória. Quando o volume de dados excede a memória disponível, nosso algoritmo o divide em segmentos menores. Ele processa esses segmentos um de cada vez, colocando-os dentro e fora da memória. Esta técnica nos equipa com a capacidade única de gerenciar e analisar conjuntos de dados extremamente grandes com eficiência.”

O algoritmo distribuído para sistemas de computadores modernos e heterogêneos de alto desempenho pode ser útil em hardware tão pequeno quanto um computador desktop, ou tão grande e complexo como Chicoma, Summit ou os próximos supercomputadores Venado, disse Boureima.

“A questão não é mais se é possível fatorar uma matriz maior, mas sim quanto tempo levará a fatoração”, disse Boureima.

A implementação de Los Alamos aproveita recursos de hardware, como GPUs, para acelerar a computação e interconectar rapidamente para mover dados entre computadores com eficiência. Ao mesmo tempo, o algoritmo realiza com eficiência várias tarefas simultaneamente.

A fatoração de matrizes não negativas é outra parcela dos algoritmos de alto desempenho desenvolvidos no projeto SmartTensors em Los Alamos.

No aprendizado de máquina, a fatoração de matrizes não negativas pode ser usada como uma forma de aprendizado não supervisionado para extrair significado dos dados, disse Boureima. “Isso é muito importante para o aprendizado de máquina e a análise de dados porque o algoritmo pode identificar recursos latentes explicáveis ​​nos dados que têm um significado específico para o usuário”.

A corrida recorde

No recorde executado pela equipe de Los Alamos, o algoritmo processou uma matriz densa de 340 terabytes e uma matriz esparsa de 11 exabytes, usando 25.000 GPUs.

“Estamos alcançando a fatoração de exabytes, o que ninguém mais fez, até onde sabemos”, disse Boian Alexandrov, coautor do novo artigo e físico teórico de Los Alamos que liderou a equipe que desenvolveu a plataforma de inteligência artificial SmartTensors. .

A decomposição ou fatoração de dados é uma técnica especializada de mineração de dados que visa extrair informações pertinentes, simplificando os dados em formatos compreensíveis.

Bhattarai enfatizou ainda a escalabilidade de seu algoritmo, observando: “Em contraste, os métodos convencionais muitas vezes enfrentam gargalos, principalmente devido ao atraso na transferência de dados entre os processadores de um computador e sua memória.”

“Também mostramos que não precisamos necessariamente de grandes computadores”, disse Boureima. “Escalar para 25.000 GPUs é ótimo se você puder pagar, mas nosso algoritmo será útil em computadores desktop para algo que você não conseguia processar antes.”

O financiamento: Esta pesquisa foi financiada pela DNN R&D e pelo programa de Pesquisa e Desenvolvimento Dirigido por Laboratório do Laboratório Nacional de Los Alamos.

LA-UR-23-29923

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo