Ciência e Tecnologia

O primeiro supercomputador exascale tem uma falha de hardware todos os dias

Em resumo: Frontier, o supercomputador mais poderoso do mundo, está online, mas ainda longe de estar operacional. Seu diretor confirmou relatos de que está enfrentando uma falha no sistema a cada poucas horas, mas insiste que isso é normal.

Frontier está em uma classe própria. Ele possui 9.408 nós HPE Cray EX235a, cada um equipado com uma CPU AMD Trento 7A53 Epyc de 64 núcleos equipada com 512 GB de DDR4 e quatro GPUs / aceleradores AMD Instinct MI250X, cada uma equipada com 128 GB de HBM2e. Resumindo, o sistema tem 602.112 núcleos de CPU e 8.138.240 núcleos de GPU no total, e 4,6 PB de DDR4 e HBM2e.

Em maio, a Frontier ingressou no TOP500 como o primeiro supercomputador para quebrar a barreira exascale depois de concluir o benchmark HPL com uma pontuação de 1,102 ExaFlops/s. Desde então, o Laboratório Nacional de Oak Ridge, no Tennessee, que administra o supercomputador, vem preparando-o para pesquisas científicas programadas para começar em janeiro. que o lançamento da Frontier poderia ser impedido por falhas excessivas de hardware. Buscando respostas, a Inside HPC organizou uma entrevista com o Diretor do Programa em Oak Ridge, Justin Whitt. Na entrevista, ele confirmou que a Frontier estava enfrentando falhas diárias no sistema, mas afirmou que isso era inevitável em um sistema tão grande.

“O tempo médio entre falhas em um sistema desse tamanho é de horas , não são dias”, disse ele. “Então você precisa ter certeza de que entende quais são essas falhas e que não há padrões para essas falhas com as quais você precisa se preocupar.” Whitt acrescentou que passar um dia sem uma falha “seria excelente.”

“Nossa meta ainda é horas.”

diz Justin Whitt, Diretor de Programas do OLCF

Havia rumores de que os problemas de hardware estavam sendo causados ​​pelo novo AMD Instinct MI250X, mas Whitt os refutou. O MI250X é o GPU/acelerador mais poderoso da AMD e só o vende para parceiros selecionados. Ele tem 220 CUs contendo 14.080 núcleos com clock de 1700 MHz em um pacote de 500 W.

“Os problemas abrangem muitas categorias diferentes, as GPUs são apenas uma”, Whitt comentou. “Tem sido uma distribuição muito boa entre os culpados comuns de falhas de peças que têm sido uma grande parte disso. Não acho que neste momento tenhamos muita preocupação com os produtos AMD”, acrescentou.

“Estamos lidando com muitas coisas do início da vida que vimos com outras máquinas que implantamos, então não é nada muito fora do comum. “

Whitt admitiu que a escala sem precedentes da Frontier tornou o ajuste “um pouco mais difícil”, mas disse que ainda estava seguindo o cronograma definido em 2018-19, apesar atrasos causados ​​pela pandemia.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo