technology

Pratos Intel na CPU Xeon Max e GPU Max Series para aplicativos HPC • Strong The One

.

O mais recente plano da Intel para afastar rivais de cargas de trabalho de computação de alto desempenho envolve uma CPU com grandes pilhas de memória de alta largura de banda e novos tipos de aceleradores, além de sua tão esperada GPU de datacenter que enfrentará os chips mais poderosos da Nvidia .

Após vários atrasos, a gigante x86 na quarta-feira apresentou formalmente a nova família de CPUs Xeon anteriormente conhecida como Sapphire Rapids HBM e sua nova GPU de datacenter mais conhecida como Ponte Vecchio. Agora você os conhecerá como Intel Xeon CPU Max Series e Intel Data Center GPU Max Series, respectivamente, que estavam entre o bando de detalhes compartilhados pela Intel hoje, incluindo comparações de desempenho.

Esses chips, programados para chegar no início de 2023 junto com o baunilha 4º CPUs escaláveis ​​Xeon de geraçãotêm sido uma fonte de curiosidade na comunidade HPC por anos porque eles vão alimentar o supercomputador Aurora do Departamento de Energia dos EUA, que deve se tornar o segundo supercomputador exascale do país e, consequentemente, um dos mais rápidos do mundo.

Nós sempre vamos empurrar o envelope. Às vezes isso faz com que talvez não consigamos

Em uma entrevista com jornalistas, Jeff McVeigh, chefe do Super Compute Group da Intel, disse que o nome Max representa o desejo da empresa de maximizar a largura de banda, computação e outros recursos para uma ampla gama de aplicativos HPC, cujos principais usuários incluem governos, laboratórios de pesquisa , e corporações.

McVeigh admitiu que a Intel se atrapalhou com o tempo que a empresa levou para comercializar esses chips, mas tentou transformar os erros em um propósito maior.

“Sempre vamos forçar o limite. Às vezes, isso faz com que não consigamos, mas estamos fazendo isso para ajudar nossos desenvolvedores, ajudando o ecossistema a resolver [the world’s] maiores desafios”, disse.

Caso você esteja se perguntando se algum fornecedor de servidores planeja usar esses chips, a resposta é sim. A Intel disse que existem mais de 30 designs de sistemas para o Xeon Max vindos de 12 fornecedores, incluindo Hewlett Packard Enterprise, Dell, Lenovo e Supermicro. Eles provavelmente se sobreporão aos mais de 15 designs para a CPU Max Series de datacenter provenientes de cinco fornecedores.

A primeira CPU x86 com HBM

A série Xeon Max incluirá até 56 núcleos de desempenho, baseados nos mesmos recursos de microarquitetura Golden Cove dos 12 núcleos da Intel.º-Gen Core, que estreou no ano passado. Assim como os chips de baunilha Sapphire Rapids que serão lançados no próximo ano, esses chips suportarão DDR5, PCIe 5.0 e Compute Express Link (CXL) 1.1, que permitirá que a memória seja conectada diretamente à CPU sobre PCIe 5.0.

O Xeon Max, que vem com uma potência de design térmico (TDP) de 350 W, vem com 20 aceleradores integrados para inteligência artificial e cargas de trabalho de HPC. Esses tipos de aceleradores incluem Intel Advanced Vector Extensions 512 (AVX-512) e Intel Deep Learning Boost (DL Boost), Intel Data Streaming Accelerator (DSA) e Intel Advanced Matrix Extensions (AMX).

Com o AVX-512, a Intel afirmou que um sistema baseado em Xeon Max pode fornecer o dobro do desempenho de treinamento de aprendizado profundo de um sistema usando a CPU Epyc 7763 de ponta da AMD, usando o benchmark MLPerf DeepCAM. Mas com o AMX, a empresa disse que o sistema Xeon Max pode fornecer desempenho 3,6 vezes mais rápido. Como de costume, devemos aceitar qualquer afirmação de desempenho com um grão de sal.

Ao contrário do Sapphire Rapids, o Xeon Max virá com 64 GB de HBM2e, o que dará à CPU aproximadamente 1 TB/s de largura de banda de memória e mais de 1 GB por núcleo.

Esta não é a primeira vez que uma CPU incorporou a HBM. Essa honra iria para A64FX baseado em braço da Fujitsu, que alimenta um dos supercomputadores mais rápidos do mundo no Japão. Mas o Xeon Max é o primeiro CPU x86 do mundo com HBM, o que McVeigh disse que trará os benefícios do HBM para um público muito mais amplo.

Com 64 GB de HBM2e, um servidor dual-socket com duas CPUs Xeon Max terá um total de 128 GB. Isso é significativo porque você pode usar o HBM como memória do sistema e, como resultado, esquecer de colocar qualquer módulo DRAM se estiver bem com esse tipo de capacidade.

McVeigh disse que essa configuração, chamada de modo somente HBM, pode ajudar os operadores de datacenter a economizar dinheiro e energia, e não há necessidade de nenhuma alteração de código para que o software reconheça a HBM.

Mas para os operadores de datacenter que desejam usar a memória DDR como capacidade extra ou como memória do sistema, existem opções. No modo plano HBM, o HBM e o DDR atuam como duas regiões de memória, mas para que o software reconheça isso, são necessárias alterações de código. No modo de cache do HBM, o HBM atua como um cache para o DDR; isso não requer alterações de código.

McVeigh afirmou que a HBM ajuda o Xeon Max a oferecer uma grande melhoria no desempenho por watt em relação ao AMD Epyc 7773X com foco em HPC, que vem com 768 MB de cache L3. Com a memória DDR5 instalada, a Intel disse que um sistema baseado em Xeon Max usa 63% menos energia do que o sistema baseado em Epyc para fornecer o mesmo nível de desempenho para o benchmark High Performance Conjugate Gradients. Com apenas HBM, o sistema Xeon Max usa 67% menos energia, de acordo com a Intel.

A Intel compartilhou várias outras comparações de desempenho em que um sistema Xeon Max era de 20% a 4,8 vezes mais rápido do que um sistema baseado em Epyc, dependendo da carga de trabalho do HPC. Mas, como dissemos antes, qualquer justaposição competitiva oferecida por um fornecedor precisa ser vista com grande escrutínio.

Também precisamos considerar que a AMD está planejando um sucessor para seus chips Epyc de cache pesado, codinome Génova-Xque pode chegar no próximo ano ou 2024.

Uma GPU digna da atenção da Nvidia?

Embora o Data Center GPU Max Series da Intel não tenha uma marca criativa como Xeon, a empresa espera que o acelerador anteriormente conhecido como Ponte Vecchio torne a empresa mais competitiva com as GPUs de datacenter da Nvidia, que tem uma liderança sólida, e AMD, que está conquistando acima.

A fabricante de chips chamou a GPU Max Series de seu “processador de maior densidade” por causa de como ela embala mais de 100 bilhões de transistores em um pacote de sistema composto por 47 chiplets, conhecidos como “telhas” no jargão da Intel. Esses blocos são reunidos no pacote usando o Intel’s tecnologias avançadas de embalagem: ponte de interconexão multidie integrada (EMIB) e Foveros.

A GPU Max Series vem com até 128 núcleos com base no Microarquitetura Intel Xe HPC, um ramo focado em HPC da arquitetura Xe GPU do fabricante de chips. McVeigh disse que isso permite que a configuração mais poderosa da GPU forneça 52 teraflops de taxa de transferência FP64 de pico, uma medida fundamental para HPC.

A GPU também vem com até 128 unidades de ray tracing, que são voltadas para software de simulação tradicional, bem como para criação de conteúdo digital e aplicativos de pré-visualização. Cada GPU possui 16 portas Xe Link para permitir que várias GPUs se comuniquem diretamente entre si.

Assim como o Xeon Max, a GPU da Série Max vem equipada com HBM2e, só que a capacidade neste caso vai até 128GB. A GPU também possui muito cache, com um máximo de 408 MB de cache Rambo L2 (Rambo significa “memória de acesso aleatório, largura de banda otimizada”) e até 64 MB de cache L1.

McVeigh disse que a Intel projetou a hierarquia de memória da GPU para manter o máximo de dados o mais próximo possível dos mecanismos de computação do processador.

“É tudo sobre: ​​como alimentamos essa computação, como alimentamos esse mecanismo multiteraflop muito grande com dados suficientes, com processamento suficiente para que ele possa realmente executar esses aplicativos?” ele disse.

A GPU Max Series estará disponível em alguns formatos e configurações diferentes.

Para servidores padrão, há a Intel Data Center GPU Max 1100, que é uma placa PCIe de largura dupla que vem com 56 núcleos Xe e unidades de rastreamento de raios e 48 GB de HBM2e com um TDP de 300 W. A placa também vem com uma ponte 53G SerDes Intel Xe Link para conectar até quatro placas.

Para datacenters que aderem aos designs de servidor do Open Compute Project, há dois Módulos Aceleradores OCP. A GPU Max Series 1350 vem com 112 núcleos Xe e 96 GB de HBM2e com um TDP de 450 W. A configuração mais poderosa é a GPU Max Series 1550, que vem com 128 núcleos Xe e 128 GB de HBM2e com um TDP de 600 W. Ambos os módulos vêm com uma ponte 53G SerDes Intel Xe Link que permite que até oito OAMs se comuniquem diretamente.

A Intel também está fornecendo quatro OAMs de GPU da série Max em um subsistema, que pode suportar até 512 GB de HBM2e e 12,8 TBps de largura de banda total de memória. O TDP para o subsistema, destinado a datacenters com muitos servidores GPU, é de 1.800W ou 2.400W, dependendo das especificações.

A fabricante de chips disse que realizou vários testes para cargas de trabalho de HPC e IA que mostram que sua GPU Max Series tem um desempenho de 30% a 2,4 vezes melhor que a GPU A100 da Nvidia, lançada originalmente em 2020, se você precisar de um lembrete. Infelizmente, as notas de rodapé da Intel tornam difícil discernir qual fator de forma ou configuração é usado para a GPU da série Max em vários casos.

O que também é importante notar aqui é que a Nvidia planeja lançar em breve seu sucessor A100, o H100, que o fabricante da GPU disse que melhorará significativamente o desempenho em várias medidas. A Nvidia já disse que o H100 será capaz de 60 teraflops para computação FP64, o que, pelo menos no papel, tornaria o H100 mais rápido que a GPU Max Series nessa medida.

McVeigh disse que a Intel ainda não tem acesso ao H100 da Nvidia.

“Estaremos ansiosos para compartilhar os resultados quando os tivermos”, disse ele, acrescentando que a empresa espera continuar melhorando o desempenho por meio de ajustes no código.

Devemos lembrar também que a AMD está trabalhando para se tornar mais competitiva no espaço de GPU de datacenter com o Instinto MI300que deve sair no ano que vem.

Supercomputador Aurora: Se não agora, quando?

Enquanto a Intel está chegando perto de comercializar sua nova CPU e GPU Max, o supercomputador Aurora do DOE que usa o chip ainda não entrou online.

Aurora enfrentou vários atrasos que agora se estendem por quatro anos. Anunciado pela primeira vez em 2015, o supercomputador foi adiado de seu cronograma original de conclusão de 2018 para 2021 porque a fabricante de chips enlatou seus chips Xeon Phi de ponta. Em seguida, os problemas de fabricação bem documentados da Intel, afetando sua nova CPU e GPU Max, levaram a outro empurrão para 2022.

O Aurora realmente se tornará operacional em 2022? As chances não parecem grandes, com base na última atualização de McVeigh, especialmente porque agora restam menos de 60 dias no calendário.

McVeigh disse que o operador do Aurora, o Argonne National Laboratory, não enviará resultados para a lista de outono atualizada do os 500 supercomputadores mais rápidos do mundoque deve chegar na próxima semana, porque o sistema ainda está se encaixando.

“Estamos ansiosos para fazer isso em 2023, e nosso foco agora é realmente a instalação completa, a otimização total do trabalho e a otimização do sistema”, disse ele. ®

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo