.
Pesquisadores esperando para colocar as mãos no muito atrasado supercomputador Aurora no US Argonne National Laboratory agora têm um novo brinquedo à sua disposição, um mini-Aurora de codinome Sunspot.
O Sunspot é um sistema de teste e desenvolvimento de dois racks equipado com 128 nós das mesmas tecnologias que alimentarão o supercomputador exascale Aurora da Argonne. Imagem do Laboratório Nacional Argonne
Mancha solar é um novo sistema de teste e desenvolvimento que foi construído exatamente com a mesma arquitetura do Aurora, o supercomputador exascale atualmente em construção no Argonne Leadership Computing Facility (ALCF) em Illinois.
Mas enquanto o Aurora está planejado para assimilar mais de 10.000 nós, uma vez totalmente concluído, o Sunspot pode caber em apenas dois racks de datacenter com seus 128 nós.
Assim como o Aurora, cada nó é configurado com dois processadores Intel Xeon CPU Max (Sapphire Rapids) e seis aceleradores de GPU Intel Data Center Max (Ponte Vecchio), com a interconexão Slingshot da HPE (tecnologia Cray) conectando tudo.
“Sunspot é basicamente uma versão em miniatura de Aurora”, disse a diretora de projeto da ALCF para Aurora, Susan Coghlan.
A ideia é que isso dê às equipes de pesquisa uma facilidade que eles possam usar para otimizar o desempenho do código usando o hardware real do Aurora enquanto ainda esperam pelo produto real.
Aurora era originalmente programado para entrega em 2018 como um sistema baseado nos (agora descontinuados) chips Intel Xeon Phi, surgiu uma nova arquitetura destinada a torná-lo o primeiro supercomputador exascale (um capaz de executar um bilhão de bilhões (1018) cálculos de ponto flutuante por segundo).
No entanto, esta encarnação atrasou devido a atrasos na Intel lançando seus processadores Sapphire Rapids Xeon Scalable, e o baseado em AMD supercomputador de fronteira no Oak Ridge National Laboratory, no Tennessee, acabou levando o prêmio exascale.
Sunspot aparentemente está no local em Argonne desde dezembro, mas antes de estar pronto, as equipes de desenvolvimento usaram uma série de outros sistemas de teste. Estes incluíram Iris, Arcticus e Florentia na própria Argonne e boreal no laboratório de computação de alto desempenho (HPC) da Intel em Oregon.
Esses sistemas continuam a ser úteis para os preparativos do Aurora, mas aparentemente é a arquitetura idêntica do Sunspot que oferece aos pesquisadores o ambiente ideal para otimizar o desempenho do aplicativo para o supercomputador de exascale.
“Sunspot é a primeira vez que vemos como tudo está funcionando junto”, disse Coghlan. “Aprendemos muito com essas execuções. Isso nos dá a chance de resolver alguns problemas antes que o Aurora esteja pronto para os usuários.”
O co-gerente do Aurora Early Science Program da ALCF, Tim Williams, disse que isso era importante para se preparar para começar a fazer ciência com um novo sistema desde o primeiro dia de implantação.
“Testbeds como o Sunspot permitem que os pesquisadores realizem estudos de desempenho e aumentem suas cargas de trabalho para serem executados em supercomputadores muito maiores enquanto esses sistemas ainda estão sendo construídos”, explicou ele.
De acordo com Argonne, mais de 180 pesquisadores de mais de 20 equipes de desenvolvimento de aplicativos do Early Science Program (ESP) e do Departamento de Energia Exascale Computing Project (ECP) dos EUA já começaram a acessar o testbed para dimensionamento e pesquisa de otimização de desempenho.
A equipe ALCF disse que espera melhorias de desempenho no código do software, à medida que as equipes continuam a dimensionar e otimizar vários nós no Sunspot e em outros recursos de computação disponíveis.
Como exemplo, diz-se que a equipe está usando Intel da Sunspot DAOS (Distributed Asynchronous Object Storage) para testar e aprimorar o desempenho de E/S.
Espera-se que o Sunspot continue desempenhando um papel mesmo depois que o Aurora for declarado totalmente operacional, disse Argonne, que agora está programado para o final deste ano. Como os outros sistemas de teste e desenvolvimento do ALCF, o Sunspot deve continuar sendo uma plataforma útil para os usuários otimizarem o desempenho do código antes de passar para o Aurora. ®
.








