Ciência e Tecnologia

Novo super data center aumenta o poder de processamento do metaverso

O novo Research SuperCluster (RSC) já está sendo usado para treinar grandes modelos para processamento de linguagem natural e visão computacional, tecnologias que têm ampla aplicação hoje e serão importantes para a visão da Meta para um futuro metaverso digital.

 

“As experiências que estamos construindo para o metaverso exigem um enorme poder computacional (quintilhões de operações/segundo!)”, disse o fundador e CEO da Met, Mark Zuckerberg. “O RSC permitirá novos modelos de IA que podem aprender com trilhões de exemplos, entender centenas de idiomas e muito mais.”

 

O RSC representa a próxima fase da infraestrutura digital da Meta, que atualmente opera 18 campi de data centers em todo o mundo para dar suporte aos seus serviços Facebook, Instagran e Messenger. Esses data centers representam um investimento de US$ 16 bilhões e mais do que isso abrangem 40 milhões de pés quadrados de espaço.

 

Atualmente, o RSC possui 760 sistemas NVIDIA DGX A100 para seus nós de computação, com mais de 6.080 GPUs alojadas em mais de 500 racks de equipamentos. O sistema está funcionando agora, mas continuará a ser expandido até atingir 16.000 GPUs em 1.200 racks ainda este ano, o que aumentará o desempenho do treinamento de IA em mais de 2,5 vezes. Quando esse objetivo for alcançado, Meta acredita que o RSC será o sistema de supercomputação de IA mais rápido do mundo.

 

Abrindo o caminho para uma nova plataforma de computação

 

“Esperamos que a RSC nos ajude a construir sistemas de IA inteiramente novos que possam, por exemplo, fornecer traduções de voz em tempo real para grandes grupos de pessoas, cada uma falando um idioma diferente, para que possam colaborar perfeitamente em um projeto de pesquisa ou jogar um jogo de realidade aumentada. juntos”, disse Meta em uma postagem no blog do gerente de programa técnico Kevin Lee e do engenheiro de software Shubho Sengupta. “Em última análise, o trabalho feito com o RSC abrirá o caminho para a construção de tecnologias para a próxima grande plataforma de computação – o metaverso, onde aplicativos e produtos orientados por IA desempenharão um papel importante”.

 

Este vídeo fornece uma visão geral do RSC e suas operações.

 

 

Na inteligência artificial (IA), os computadores são montados em redes neurais que emulam o processo de aprendizado do cérebro humano para resolver novos desafios. É um processo que requer muita potência de computação, e é por isso que os principais players da área foram além dos servidores tradicionais baseados em CPU. Uma CPU consiste em alguns núcleos otimizados para processamento serial sequencial, enquanto uma GPU possui uma arquitetura paralela que consiste em centenas ou mesmo milhares de núcleos menores projetados para lidar com várias tarefas simultaneamente.

O NVIDIA DGX A100 é a versão mais recente do “supercomputador em uma caixa” alimentado por GPU. Cada sistema DGX ocupa cerca de 6 unidades de rack (RU) de espaço, e a Meta está implantando dois sistemas DGX em cada rack de 40RU, mantendo os racks em uma densidade de energia gerenciável e deixando espaço adequado para resfriar os sistemas.

Os nós de computação DGX são conectados por uma malha de rede NVIDIA Quantum 200 Gb/s InfiniBand que se expandirá para oferecer suporte a 16.000 portas em uma topologia de duas camadas sem excesso de assinatura. A camada de armazenamento da RSC tem 175 petabytes de Pure Storage FlashArray, 46 petabytes de armazenamento de cache nos sistemas Penguin Computing Altus e 10 petabytes de Pure Storage FlashBlade. A rede InfiniBand usa uma unidade de distribuição de resfriamento líquido-líquido, enquanto todos os outros equipamentos do RSC são resfriados a ar. O Meta não está compartilhando a localização da instalação RSC, mas trocará dados com um campus existente do Meta data center, conforme visto neste diagrama.

 

 

A equipe de pesquisa de IA da Meta vem construindo esses sistemas de alta potência há muitos anos. A primeira geração dessa infraestrutura, projetada em 2017, possui 22.000 GPUs NVIDIA V100 Tensor Core em um único cluster que executa 35.000 trabalhos de treinamento por dia. Até agora, essa infraestrutura definiu o padrão para os pesquisadores da Meta em termos de desempenho, confiabilidade e produtividade.

“No início de 2020, decidimos que a melhor maneira de acelerar o progresso era projetar uma nova infraestrutura de computação a partir de uma ardósia limpa para aproveitar a nova GPU e a tecnologia de malha de rede”, M

“Esperamos que essa mudança de função de etapa na capacidade de computação nos permita não apenas criar modelos de IA mais precisos para nossos serviços existentes, mas também permitir experiências de usuário completamente novas, especialmente no metaverso”, acrescentou a equipe Meta. investimentos de longo prazo em aprendizado autossupervisionado e na construção de infraestrutura de IA de última geração com RSC estão nos ajudando a criar as tecnologias fundamentais que irão impulsionar o metaverso e também promover a comunidade de IA mais ampla.”

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo