technology

Durham Uni e Dell co-projetam sistemas para ajudar a modelar o universo • Strong The One

.

O Telescópio Espacial James Webb forneceu vistas impressionantes do cosmos desde que as primeiras imagens foram reveladas em julho, mas também está fornecendo dados para outros empreendimentos científicos, incluindo projetos de cosmologia como os da Universidade de Durham, no nordeste da Inglaterra.

Durham faz parte da Pesquisa Distribuída utilizando Computação Avançada (DiRAC), criada para fornecer instalações de supercomputação para modelagem teórica e pesquisa baseada em HPC em física de partículas, astronomia e cosmologia em várias universidades do Reino Unido.

A parte Durham do sistema, COSMA (COSmology MAchine), foi construído com muita memória por núcleo de computação, tornando-o ideal para cargas de trabalho com uso intensivo de memória, como grandes simulações cosmológicas. O sistema mais recente, COSMA8, compreende 360 ​​nós de computação, cada um com dois processadores AMD Epyc de 64 núcleos e um terabyte (1 TB) de memória.

Isso é usado para simulações em larga escala do universo, onde os modelos podem ser ajustados de acordo com várias teorias de como o universo evoluiu para a posição que vemos hoje, e as previsões dos modelos comparadas com dados reais do James Webb Space Telescópio para avaliar o quão bem eles representam a realidade.

“Começamos com o Big Bang e depois propagamos essas simulações no tempo e basicamente evoluímos o universo ao longo de bilhões de anos e vemos como ele muda”, disse o Dr. Alastair Basden, chefe do COSMA HPC Service.

“Portanto, para coisas que ainda não entendemos adequadamente, como matéria escura e energia escura, podemos ajustar os parâmetros de entrada, como se a gravidade se comportasse de maneira diferente em longas distâncias e coisas assim. E estamos capaz de ajustar todos esses parâmetros e, em seguida, tentar combiná-los com o que vemos nas imagens de James Webb depois de calibradas e dimensionadas.”

Durham tem várias gerações de COSMA operando ao mesmo tempo, e tanto esta quanto a versão anterior foram projetadas em colaboração com a Dell para obter a configuração ideal para a carga de trabalho em questão. O cluster mais recente é conhecido como COSMA8.

“Temos cerca de 8 GB de RAM por núcleo em cada nó. Se você olhar para um sistema HPC mais convencional, eles terão cerca de um quarto disso, e isso significa executar as mesmas simulações que podemos executar aqui, você precisaria de quatro vezes mais núcleos para obter os resultados no mesmo período de tempo, por isso é um design sob medida para essas simulações cosmológicas”, disse Basden.

Outro recurso do COSMA8 é um sistema de armazenamento de ponto de verificação baseado em NVMe de alto desempenho baseado no sistema de arquivos Lustre. Esse é um recurso comum das implantações de HPC, permitindo que uma grande carga de trabalho que requer tempo de execução demorado armazene seu estado à medida que avança, para que não precise começar do zero em caso de falha.

“É um sistema de arquivos muito rápido, cerca de 400 GB por segundo, capaz de absorver os pontos de verificação de dados. Portanto, a simulação será executada, despejará um ponto de verificação a cada poucas horas ou algo assim, portanto, se algo der errado, você Temos um ponto a partir do qual podemos reiniciar a simulação”, explicou Basden.

O sistema de arquivos principal para COSMA8 é construído em servidores de rack Dell PowerEdge R6525 e R7525 mais gabinetes PowerVault ME484 JBOD, e tudo é conectado com uma malha InfiniBand de 200 Gbps.

Tecnologia de validação, incluindo refrigeração líquida

Mas parece que o relacionamento da Dell com a equipe de Durham é mais do que apenas o de um fornecedor ou integrador de sistemas, já que a universidade geralmente obtém acesso antecipado a tecnologias novas ou experimentais, o que permite que ambas as partes vejam o quão bem elas se comportam quando colocadas para trabalhar. , de acordo com Tim Loake, vice-presidente do Reino Unido para o grupo de soluções de infraestrutura da Dell.

“Durham é um parceiro importante nosso, então eles são um dos nossos Centros de Excelência HPC, em termos de ajudá-los a experimentar algumas de nossas novas tecnologias, bem como levá-los a testar e fornecer feedback sobre isso, – disse Loake.

“Damos a Alistair e à equipe de Durham acesso a nossos laboratórios e produtos de lançamento antecipado, e recebemos seus comentários para ajudar a usar o conhecimento e a experiência que eles têm na execução de um sistema HPC de ponta e alimentá-los em nosso desenvolvimento de produtos, como além de trazer novas tecnologias para eles”, explicou.

Como exemplo, a Dell introduziu uma interconexão sem switch no sistema de uma empresa chamada Redes Rockport. Isso distribui o gerenciamento de tráfego para placas de rede de terminais inteligentes em cada nó que são vinculados por meio de um hub passivo chamado SHFL.

Outra área em que Durham desempenhou um papel na validação da tecnologia é a refrigeração líquida, de acordo com Loake. Isso foi instalado como parte do COSMA8 no início de 2020 e expandido cerca de um ano depois.

“Foi provavelmente o maior sistema de resfriamento líquido direto que implantamos, certamente no Reino Unido e provavelmente em toda a Europa quando o lançamos pela primeira vez”, disse Loake.

“Obviamente, o resfriamento direto agora está se tornando mais comum em muitos datacenters e sistemas HPC, mas direcionalmente, foi muito do aprendizado que tiramos do trabalho com Alistair e a equipe de Durham que alimentou o design do produto que estamos Agora estamos lançando a próxima geração de servidores Power Edge”, acrescentou.

Essa implantação usou resfriamento líquido direto, onde o refrigerante circula por meio de dissipadores de calor conectados aos componentes que geram mais calor, como a CPU.

No entanto, o interesse agora está voltado para o resfriamento por imersão, em que todo o sistema é submerso em um fluido dielétrico que conduz calor, mas não eletricidade.

“A imersão total é algo em que estamos muito interessados ​​e, na verdade, estamos tentando obter algum financiamento para um sistema de imersão no momento”, disse Basden.

“Parte da vantagem do resfriamento por imersão é que você remove todos os ventiladores, todas as partes móveis, para não colocar drives giratórios também, tem que ser um sistema flash puro, e nenhuma peça móvel significa que a necessidade de espera-se que a manutenção seja bastante reduzida”, disse Loake.

No entanto, a maioria dos sistemas de resfriamento por imersão com os quais a Dell está trabalhando tem a capacidade de elevar um nó individual do fluido, caso seja necessário acesso, acrescentou.

“Pense nisso como um rack 42U virado para o lado e então você pode simplesmente puxar um nó para cima como se estivesse puxando-o para fora da frente de um rack normal, mas eles sobem e, obviamente, o líquido é drenado para o banho . O restante dos sistemas não é afetado e você pode fazer qualquer manutenção que precisar ”, disse ele.

Outras tecnologias que estão sendo testadas são os aceleradores FPGA e Nvidia Bluefield unidades de processamento de dados (DPUs), enquanto a Dell também está analisando outros tipos de CPUs para examinar se o desempenho é puramente núcleos brutos ou se podemos obter desempenho diferente ou mais desempenho por watt.

De acordo com Basden, algumas das tecnologias que eles testam são avaliadas para uso futuro imediato em projetos, enquanto outras estão olhando mais longe. Um destes últimos é o Projeto Excalibur que faz parte dos preparativos do Reino Unido para a computação exascale.

“Principalmente são esforços de software para preparar o código para rodar em grandes sistemas exascale, mas uma pequena parte também é de hardware, procurando qual novo hardware pode ter potencial dentro de um sistema HPC”, disse ele.

Isso inclui a tecnologia de interconexão Rockport, bem como a infraestrutura composta de líquido que permite que as GPUs sejam atribuídas a nós diferentes. A Liqid desenvolve uma camada de software que reúne componentes conectados por meio de uma malha PCIe 4.0.

O último é algo útil para a configuração de Durham devido à natureza das cargas de trabalho que opera, de acordo com Basden. Devido ao grande consumo de memória e à natureza dinâmica dos cálculos, o código de cosmologia tende a não ser adequado para aceleração de GPU, mas alguns cálculos podem se beneficiar desse suporte e, portanto, a infraestrutura composta permite que eles sejam alternados para um nó se necessário.

“Para algumas simulações que precisam de um grande número de GPUs, talvez em um número menor de nós, eles podem ter isso”, disse ele.

No momento, a infraestrutura composable é implementada apenas em um pequeno protótipo de sistema, mas “é uma daquelas coisas que, se algum dia fôssemos fazer isso em um sistema futuro de grande escala, precisaríamos ter construído a confiança primeiro que iria funcionar”, explicou Basden. ®

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo