technology

Você não deve esperar na fila pelo tempo do supercomputador • Strong The One

.

Recurso patrocinado A computação de alto desempenho (HPC) aprimora continuamente a tecnologia de ponta. Enfrentar os maiores problemas da ciência ou da indústria, seja em escala planetária ou micro, por definição, impulsionará a inovação em todos os aspectos da infraestrutura de computadores e do software executado nela.

Os engenheiros e administradores que gerenciam os sistemas de HPC geralmente realizam um delicado ato de equilíbrio, combinando a capacidade disponível para eles com as demandas de pesquisadores ou desenvolvedores ansiosos para resolver seus desafios específicos. E à medida que esses problemas se tornam maiores e mais complexos, as cargas de trabalho e conjuntos de dados associados também se tornam cada vez maiores e mais complexos.

Isso torna cada vez mais difícil para as arquiteturas locais tradicionais acompanharem. Embora os conjuntos de dados possam estar se expandindo o tempo todo, há limites rígidos sobre a quantidade de trabalho que um determinado sistema pode fornecer, mesmo que esteja funcionando 24 horas por dia.

Diferentes prioridades de equipe competem por esses recursos. Embora possamos assumir que desenvolvedores e cientistas sempre vão querer mais poder, as coisas ficam particularmente complicadas quando se aproximam de um lançamento ou se preparam para colocar um projeto ou produto em produção. A execução de um sistema local com capacidade total não deixa espaço para agilidade ou capacidade de resposta.

Além disso, todas essas cargas de trabalho variadas têm requisitos ligeiramente diferentes, o que significa que os administradores e arquitetos do sistema HPC podem ter a sobrecarga adicional de ajustar e otimizar suas instalações de acordo. Isso está além do monitoramento, gerenciamento de energia e, é claro, segurança, uma preocupação específica em que as cargas de trabalho HPC incorporam IP extremamente valioso.

Mesmo que os administradores do sistema HPC tenham orçamento para atualizações, eles enfrentam o desafio mundano de obter o equipamento de ponta apropriado em primeiro lugar. Longos ciclos de compras desaceleram os projetos e os deixam expostos a aumentos de preços. Enquanto isso, os operadores têm pouca escolha a não ser confiar em sistemas legados por mais tempo para obter os resultados de que precisam. A nuvem oferece uma alternativa, com a promessa de escalabilidade e agilidade, além de preços mais previsíveis e flexíveis.

Mas, como vimos, as cargas de trabalho de HPC são incrivelmente variadas. Alguns são computacionais intensivos, o que significa que o desempenho bruto da CPU é o elemento-chave para os engenheiros. Outros são intensivos em dados, o que significa que armazenamento, E/S e escalabilidade são fatores mais importantes. E alguns problemas combinam ambos os requisitos. A análise de elementos finitos (FEA), por exemplo, aborda problemas em torno de líquidos e sólidos. A resolução de sólidos requer muita memória, enquanto a resolução de fluidos requer computação intensiva.

Recursos finitos

A FEA é crítica em qualquer forma de engenharia, desde grandes infraestruturas, como turbinas eólicas, até dispositivos médicos para uso no corpo humano. É fundamental para simulações de testes de colisão de veículos – agora ainda mais prioritário com a mudança para veículos elétricos que apresentam diferentes desafios de segurança devido à localização de baterias e outros componentes. Da mesma forma, à medida que as nações procuram atualizar sua infraestrutura de energia, as cargas de trabalho sísmicas e as simulações são mais importantes do que nunca.

Tudo isso significa que é improvável que instâncias de computação genéricas e indiferenciadas atraiam cientistas e engenheiros que procuram ajustar suas cargas de trabalho FEA para obter o máximo de respostas o mais rápido possível. É por esse motivo que a conferência re:Invent mais recente viu a AWS revelar novas instâncias otimizadas para HPC especificamente para cargas de trabalho FEA, oferecendo um menu variado de computação subjacente, incluindo CPUs, GPUs e FPGAs, bem como DRAM, armazenamento e IO.

Para cargas de trabalho como FEA, que são desafiadoras do ponto de vista de dados e computação, a AWS projetou instâncias Amazon EC2 Hpc6id em torno dos processadores Intel® Xeon® Scalable de 3ª geração da Intel, que apresentam 64 núcleos físicos, rodando em até 3,5 GHz.

A arquitetura Intel apresenta Advanced Vector Extensions 512 (Intel® AVX-512) que acelera cargas de trabalho de alto desempenho, incluindo algoritmos criptográficos, simulações científicas e modelagem e análise 3D. Ele também elimina a necessidade de descarregar certas cargas de trabalho da CPU para o hardware dedicado.

Da mesma forma, a oneAPI Math Kernel Library (OneMKL) da Intel é otimizada para computação científica e ajuda os desenvolvedores a explorar totalmente a contagem de núcleos, para fornecer maior otimização e paralelização e impulsionar aplicativos científicos e de engenharia. Tendo em mente a alta probabilidade de cargas de trabalho HPC envolvendo dados confidenciais e IP, as instâncias EC2 Hpc6id também apresentam a criptografia de memória total da Intel (Intel® TME).

O Intel TME criptografa toda a memória do sistema com uma única chave transitória, garantindo que todos os dados que passam entre a memória e a CPU sejam protegidos contra ataques físicos à memória.

Como as instâncias EC2 Hpc6id são alimentadas pela arquitetura Intel, os engenheiros já são bem versados ​​em tirar proveito de tecnologias como Intel AVX-512. Muitos aplicativos foram escritos para utilizá-lo, portanto, se o pacote de software já o utiliza, os engenheiros não precisam fazer modificações.

As instâncias EC2 Hpc6id incluem até 15,2 TB de armazenamento NVMe local para fornecer capacidade suficiente e dar suporte a cargas de trabalho com uso intensivo de dados. Com cargas de trabalho HPC, não é apenas uma questão de ter armazenamento “suficiente”, é preciso ser rápido o suficiente para garantir que os processadores sejam mantidos totalmente carregados com dados e capazes de gravar dados rapidamente. Isso é acompanhado por 1 TB de memória, com capacidade de memória de 5 GB/s por vCPU, o que acelera ainda mais o processamento dos enormes conjuntos de dados que esses tipos de problemas exigem.

HPC em uma instância

É uma combinação que oferece uma quantidade incrível de potência em uma única instância. Mas como essas cargas de trabalho são distribuídas, elas têm várias instâncias que precisam se comunicar entre si. É aí que entra a interconexão de 200 Gbps da AWS.

Essa interconexão é baseada na interface de rede Elastic Fabric Adapter (EFA) da AWS, desenvolvida pelo Nitro System da AWS, que transfere as funções de virtualização para hardware e software dedicados, aumentando ainda mais o desempenho e a escalabilidade.

Os clientes também podem aproveitar a vantagem da própria escala massiva da AWS. Eles podem executar suas instâncias EC2 Hpc6id em uma única zona de disponibilidade, melhorando as comunicações nó a nó e reduzindo ainda mais a latência, por exemplo. Eles podem usar instâncias EC2 Hpc6id com AWS ParallelCluster, que é a ferramenta de gerenciamento de cluster da AWS, para provisionar instâncias EC2 Hpc6id juntamente com outras instâncias AWS no mesmo cluster, ampliando ainda mais a capacidade de executar várias cargas de trabalho, ou partes de cargas de trabalho, no local mais apropriado instância. E funciona com agendadores de lote, como o AWS Batch, exigido por muitos desses clusters.

Os clientes também têm a oportunidade de acessar outros aplicativos e serviços da AWS. Isso varia de ajuda na configuração de sua infraestrutura de HPC, passando pelo aumento da resiliência com infraestrutura global segura, ampla e confiável da AWS, até o aproveitamento dos aplicativos de visualização da AWS para ajudá-los a entender os resultados produzidos por suas execuções de HPC.

Em termos de desempenho, as instâncias Hpc6id do Amazon EC2 oferecem desempenho de preço até 2,2 vezes melhor do que instâncias baseadas em x86 comparáveis ​​para cargas de trabalho de HPC com uso intensivo de dados, como análise de elementos finitos (FEA).

Há também um benefício de licenciamento de software, já que os pacotes de software usados ​​para cargas de trabalho de HPC geralmente são cobrados por nó. Se os engenheiros puderem fazer o mesmo trabalho com menos nós, como podem com instâncias EC2 Hpc6id, haverá economia de tempo e custo. E por terem a capacidade de executar mais análises em menos tempo, eles simplesmente conseguem fazer mais simulações.

E isso tem um impacto muito real no mundo. Porque, em algum momento, o sistema que está sendo simulado, seja um dispositivo médico, um carro, uma pá de turbina ou um reservatório, deve ser construído e testado fisicamente no mundo real. Ao executar mais análises e simulações na AWS com mais rapidez, os engenheiros podem restringir os casos para testes físicos do mundo real e realizá-los com mais precisão.

Patrocinado pela AWS.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo