.
Análise Durante o recente lançamento de suas CPUs Epyc Genoa de 96 núcleos, a AMD tocou em um dos maiores desafios enfrentados pela computação moderna. Nos últimos anos, a taxa na qual os processadores ficaram mais poderosos ultrapassou a dos subsistemas de memória que mantêm esses núcleos alimentados com dados.
“Qualquer coisa que esteja usando uma pegada de memória muito grande vai precisar de muita largura de banda para conduzir os núcleos”, disse o analista do Gartner, Tim Harvey. Strong The One. “E se você está acessando esses dados aleatoriamente, então você vai perder muito o cache, então ser capaz de extrair dados muito rapidamente será muito útil.”
E isso não é um fenômeno novo, especialmente em cargas de trabalho de computação de alto desempenho (HPC). nosso site irmão A próxima plataforma foi rastreamento a proporção crescente de poder de computação para largura de banda de memória já há algum tempo.
Mas, embora a mudança para DIMMs DDR5 de 4.800 MTps aumente a largura de banda em 50% em relação ao DDR4 mais rápido, isso por si só não foi suficiente para saciar Epycs de 96 núcleos da AMD. Os engenheiros da AMD tiveram que compensar a diferença aumentando o número de controladores de memória e, portanto, canais para 12. Combinado com DDR5 mais rápido, o Genoa oferece mais que o dobro da largura de banda de memória do Milan.
A abordagem não é sem compromisso. Por um lado, adicionar mais canais requer dedicar mais espaço de dados aos controladores de memória. Há também considerações de sinalização que devem ser levadas em consideração para suportar o maior número de DIMMs conectados a esses canais. E há o desafio de encaixar fisicamente todos esses DIMMs em um chassi convencional, especialmente em uma configuração de soquete duplo.
Por causa disso, é provável que a AMD permaneça em 12 canais pelo menos nas próximas gerações e, em vez disso, conte com a melhoria das velocidades de memória DDR5 para aumentar a largura de banda.
A Micron espera que as velocidades de memória cheguem a 8.800 MTps durante a vida útil do DDR5. Em um sistema de 12 canais, isso resulta em cerca de 840 GBps de largura de banda de memória.
“O desempenho do DDR5 aumentará com o tempo, mas ainda teremos uma grande diferença entre os núcleos disponíveis e a largura de banda da memória, e será difícil mantê-los alimentados”, disse Harvey.
Optano vive. Tipo de
Embora a abordagem da AMD para o problema envolva colocar fisicamente mais controladores de memória em seus chips e mais memória DDR5 mais rápida no sistema, a Intel adotou uma abordagem diferente com o Processadores Xeon Max que alimentará o supercomputador Aurora do Departamento de Energia dos Estados Unidos.
Anteriormente conhecido como Sapphire Rapids HBM, os chips empacotam 64 GB de memória HBM2e com capacidade de 1 TBps de largura de banda em um processador Xeon Scalable de 56 núcleos de 4ª geração.
E embora você possa tecnicamente executar o chip inteiramente fora do HBM, para aqueles que precisam de vastos pools de memória para coisas como grandes modelos de linguagem natural, a Intel suporta memória em camadas em duas configurações altamente reminiscentes de seus recentes machado Unidade de negócios Optane.
No modo plano HBM da Intel, qualquer DDR5 externo atua como um pool de memória acessível separadamente. Enquanto isso, no modo de cache, o HBM é tratado mais como um cache de nível 4 para o DDR5.
Embora o último possa ser atraente para alguns casos de uso, pois é transparente e não requer nenhuma alteração de software, Harvey argumenta que, se ele se comportar como a memória persistente Optane da Intel, o HBM pode ser subutilizado.
“Na maioria das vezes, as CPUs são boas em cache no nível de instrução; elas não são muito boas em cache no nível de aplicativo”, disse ele, acrescentando que rodar o chip em modo plano pode ser promissor, mesmo que exija considerações especiais de fornecedores de software.
“Se você tem um grande cache HBM efetivamente para a memória principal, os fornecedores de sistemas operacionais, os fornecedores de hipervisor, serão muito melhores em gerenciá-lo do que a CPU”, disse ele. “A CPU não pode ver o nível das instruções, enquanto o hipervisor sabe que estou prestes a alternar entre este aplicativo e aquele e, portanto, posso pré-carregar esse aplicativo no HBM.”
LPDDR co-empacotado
Para obter larguras de banda igualmente altas para sua primeira CPU de datacenter, a Nvidia também está movendo a memória para a CPU. Mas, ao contrário do Xeon Max da Intel, a Nvidia não depende de memória HBM cara e de baixa capacidade e, em vez disso, usa módulos LPDDR5x comuns.
Cada Grace Superchip funde duas matrizes de CPU Grace – cada uma com 72 núcleos Arm Neoverse V2 – conectadas pela interconexão NVLink-C2C de 900 GB/s do fabricante de chips. As matrizes são ladeadas por fileiras de módulos de memória LPDDR5 para um terabyte de largura de banda e capacidade.
Embora seja difícil saber com certeza, nosso melhor palpite é que cada matriz de CPU Grace está conectada a oito módulos de memória LPDDR5x de 64 GB rodando em torno de 8.533 MTps. Isso resultaria em 546 GBps de largura de banda para cada uma das duas matrizes de CPU.
A Apple realmente empregou uma abordagem semelhante, embora usando memória LPDDR5 6.400MTps mais lenta, para atingir 800GBps de largura de banda de memória em seu Processadores M1 Ultra, lançado no Mac Studio no início deste ano. No entanto, os motivos da Apple para fazer isso tinham menos a ver com a largura de banda da memória por núcleo e mais com a alimentação das GPUs integradas do chip.
Para a Nvidia, o método oferece algumas vantagens aparentes em relação ao uso de algo como HBM, sendo as maiores a capacidade e o custo. O HBM2e pode ser adquirido em capacidades de até 16 GB de fornecedores como a Micron. Isso significa que você precisaria de quatro vezes mais módulos do que o LPDDR.
Mas mesmo essa abordagem não é isenta de concessões, de acordo com Harvey. Colocar a memória no pacote da CPU significa que você está abrindo mão da flexibilidade. Se você precisar de mais de 1 TB de memória do sistema, não poderá simplesmente adicionar mais DIMMs à mistura – pelo menos não como a Nvidia implementou as coisas.
No entanto, para o mercado-alvo da Nvidia para esses chips, provavelmente ainda faz sentido, explicou Harvey. “A Nvidia está muito focada em cargas de trabalho de IA/ML que têm um conjunto específico de necessidades, enquanto a Intel está mais focada nessa carga de trabalho de propósito geral”.
CXL ainda não é a resposta
Os processadores Genoa da AMD e Xeon Scalable de 4ª geração da Intel adicionam suporte para o padrão de interconexão CXL 1.1.
As primeiras implementações da tecnologia por empresas como Laboratórios Astera e Samsung permitirá novas configurações de memória, incluindo expansão de memória e níveis de memória.
No entanto, no momento, a largura de banda limitada disponível para esses dispositivos significa que sua utilidade para lidar com a incompatibilidade entre o desempenho da CPU e da memória é limitada.
A implementação da AMD apresenta 64 pistas dedicadas a dispositivos CXL. No entanto, devido à forma como essas pistas foram bifurcadas, os dispositivos CXL podem acessar apenas quatro delas por vez. E como o CXL 1.1 funciona no PCIe 5.0, isso significa que cada dispositivo tem largura de banda limitada a 16 GBps.
“Isso pode abrir algumas coisas para largura de banda de memória ao longo do tempo, mas acho que as implementações iniciais podem não ser rápidas o suficiente”, disse Harvey.
Com as futuras gerações de PCIe, isso pode mudar. A tecnologia de interconexão normalmente dobra sua largura de banda a cada geração subsequente. Portanto, pelo PCIe Gen 7.0, um único dispositivo CXL 4x teria mais de 64 GBps de largura de banda disponível para ele.
Por enquanto, Harvey argumenta que o CXL será mais valioso para aplicativos com muita memória que não são necessariamente tão sensíveis à largura de banda ou em uma configuração de memória em camadas. ®
.