technology

Ampere corteja provedores de nuvem com chips de 192 núcleos • Strong The One

.

O que é melhor do que 128 núcleos? 192, é claro, ou essa é a aposta que a Ampere está fazendo com o lançamento de seus processadores de datacenter Arm de próxima geração esta semana.

Desde que entrou no mercado de CPU para datacenter em 2020 com o lançar de suas peças Ampere Altra de 80 núcleos, a estratégia da empresa de empacotar uma tonelada de núcleos Arm relativamente pequenos e eficientes em um único soquete pagou dividendos. Hoje, quase todos os principais provedores de nuvem, com exceção da Amazon, é claro, colocaram os núcleos do Ampere para trabalhar em suas nuvens.

Com o lançamento de sua família de processadores Ampere One de 192 núcleos esta semana, a Ampere espera consolidar sua posição de nuvem duramente conquistada, mesmo com a Intel e a AMD circulando como urubus com suas próprias peças otimizadas para núcleo.

Então, o que Ampere trouxe para a mesa desta vez?

Não apenas mais núcleos, mas principalmente isso

Se já não fosse óbvio, núcleos mais rápidos e repletos de recursos.

Para ser justo, é o que todo mundo parece estar fazendo desta vez. A Intel e a AMD aumentaram suas contagens de núcleos em 50% e a estratégia da Ampere não é diferente. A diferença é que os chips da Ampere têm muito mais núcleos – duas vezes mais que os da AMD e mais de três vezes mais que o Xeon mais caro da Intel.

A família Ampere’s One está disponível em cinco SKUs que variam de 136 a 196 núcleos, continuando de onde os chips Altra de última geração pararam. Por causa disso, Ampere nos diz que manterá a família Altra por mais algum tempo.

E embora esses chips ainda sejam de thread único, eles agora são fabricados em uma combinação de tecnologia de processos TSMC 5nm e 7nm, em uma arquitetura de chiplet.

Uma olhada no dissipador de calor integrado revela que a abordagem da Ampere para chiplets difere muito da AMD ou da Intel. Onde a AMD divide seus 96 núcleos em 12 blocos de computação de oito núcleos que se comunicam com uma única memória central e controlador de E/S, o Ampere adotou a abordagem oposta. Todos os 192 núcleos residem em uma única matriz grande ladeada por memória e matrizes de E/S.

Isso tem alguns benefícios, mas o principal é que o Ampere pode, teoricamente, atingir melhores latências. “Acho que essa é uma maneira mais ideal de arquitetar, porque significa que você não tem um monte de saltos de CPU para CPU, eles estão todos sentados juntos na malha”, disse o diretor de produtos da Ampere, Jeff Wittich. Strong The One em um briefing antes do lançamento.

A outra vantagem é a capacidade de misturar e combinar tecnologia de processo. Enquanto o bloco de computação do Ampere é fabricado usando um processo de 5 nm, suas E/S e matrizes de memória são construídas usando um processo mais antigo de 7 nm. “Geralmente não há uma grande vantagem em movê-los para o nó de processo mais recente porque os circuitos analógicos não são dimensionados da mesma maneira”, explicou ele.

Com isso dito, Ampere dificilmente é o primeiro a fazer isso. A AMD usa uma mistura heterogênea de tecnologia de processo com grande efeito em seus processadores Epyc e Ryzen há anos.

Aprofundar-se no Ampere One revela que os chips mais recentes da empresa não possuem apenas mais núcleos, mas núcleos maiores. Os novos chips agora apresentam 2 MB de cache L2 privado por núcleo. O design principal também é totalmente novo desta vez. Se acreditarmos no Ampere, você pode esperar melhorias substanciais na virtualização, gerenciamento de congestionamento de malha, previsão de ramificação, segurança e gerenciamento de energia.

A Ampere está particularmente orgulhosa de sua mudança dos núcleos pré-fabricados da Arm, pois permitiu que eles enviassem muitos recursos centrados na nuvem, como suporte para virtualização aninhada, computação confidencial, marcação de memória e limites de largura de banda de memória por locatário. Esperamos que esses recursos tornem os chips da Ampere ainda mais atraentes para os provedores de nuvem à medida que aumentam suas ofertas de computação confidencial.

Mas, assim como os chips mais recentes da AMD e da Intel, há um custo para adicionar tantos outros núcleos: térmicos e de energia. A família Ampere One é um pouco mais quente e consome um pouco mais de energia do que seu antecessor. Enquanto o Ampere Altra consumia entre 1,25 e 1,4 watts por núcleo, o Ampere One tem um orçamento de energia muito maior, em torno de 1,8 watts por núcleo, o que se traduz em cerca de 200-350 W por soquete.

Isso pode estar relacionado a como o Ampere está relatando o TDP para esses chips. Quando o Altra foi lançado pela primeira vez, o fabricante de chips citou a potência do soquete – cerca de 250 W – em vez do consumo de energia do mundo real do chip, que, segundo sabemos, nunca excedeu 180 W. Perguntamos à Ampere se o TDP de 200-350 W citado reflete o consumo no mundo real.

Jogando catch-up em I/O

Embora a Ampere ainda esteja liderando a contagem de núcleos, a empresa só agora está alcançando I/O. Ampere One é a primeira CPU do fabricante de chips a adicionar suporte para DDR5 e PCIe 5.0.

Em comparação, a AWS lançou seu compatível com DDR5 e PCIe 5.0 Graviton3 desta vez no ano passado. Enquanto isso, a AMD lançou suporte para os padrões de interface e memória de última geração em novembro com o lançamento do Epyc 4, enquanto a Intel entrou na festa em janeiro.

E como a Intel, o Ampere mantém uma configuração de oito canais com suporte para DDR5 4800MTps pronto para uso. Isso se traduz em cerca de 50% a mais de largura de banda no Altra. No entanto, com 50% a mais de núcleos, a largura de banda da memória permanece estável no topo da pilha.

Para comparação, a AMD aumentou sua contagem de núcleos na mesma margem, mas adicionou quatro pistas adicionais – para um total de 12 – para fornecer maior largura de banda de memória por núcleo, mesmo em suas peças principais.

Embora oito canais sejam suportados no lançamento, Wittich conta Strong The One que a empresa está trabalhando em uma variante de 12 canais, que deve funcionar melhor em cargas de trabalho com restrição de largura de banda.

Claro que é otimizado para IA

Nenhum lançamento de CPU em 2023 estaria completo com pelo menos uma menção passageira à aceleração de IA. Na verdade, quando a Intel finalmente entregou seu Sapphire Rapids Xeons em janeiro, seu acelerador AMX AI foi um dos poucos pontos positivos para um chip que nunca teve a intenção de competir com o Genoa da AMD.

Ampere One não é exceção a esta regra. Além das unidades vetoriais duplas de 128 bits por núcleo na geração Altra, o Ampere One adiciona suporte para Bfloat16 — um formato de ponto flutuante otimizado para aprendizado de máquina.

No entanto, com exceção dos benchmarks do mundo real, não está claro quanto valor isso realmente terá. O Ampere fez comparações com o Genoa da AMD – mais sobre isso em um segundo – enquanto qualquer comparação com o Xeon Scalables equipado com AMX da Intel estava visivelmente ausente. E quando apontamos isso, Wittich hesitou e contornou a omissão.

“Enquanto Sapphire Rapids e AMX, você sabe, oferecem bom desempenho de impressões em alguns espaços…

Uma palavra sobre desempenho

Portanto, se a Intel é um “pônei de um truque” e o Ampere detém uma liderança tão impressionante, você pode esperar que ele apresente vários gráficos de desempenho divulgando desempenho superior em relação aos concorrentes x86, exceto que realmente não vimos isso.

Em uma coletiva de imprensa antes do lançamento de quinta-feira, o Ampere ofereceu pouco em comparação com seus rivais x86. Uma das poucas comparações de desempenho que obtivemos foi para a densidade da máquina virtual. Ele afirma que um rack cheio de CPUs Ampere One pode acomodar 2,9 vezes mais VMs do que o Epyc 4 de 96 núcleos da AMD e 4,3 vezes mais do que o Xeon 8480+ de 56 núcleos da Intel.

Mas há um grande asterisco ali. Essa não é uma comparação de desempenho de CPU para CPU; isso está comparando quantos núcleos cada fabricante de chips pode colocar em um rack de 16,4kW. Por razões que sem dúvida favorecem a contagem de peças de alto núcleo da empresa, Ampere gosta de falar sobre desempenho e eficiência dessa maneira, mas não é exatamente intuitivo considerando um único servidor.

Além do mais, as reivindicações da Ampere não levam em consideração o multi-threading nas peças da AMD ou da Intel. Executar uma VM por thread pode não ser aconselhável em um ambiente multilocatário, mas certamente pode render algumas VMs extras, se você estiver disposto a executar uma por thread.

Não perca os comentários e análises completos do processador Ampere One de 192 núcleos, codinome Siryn, na próxima plataforma.

A única outra comparação de desempenho que a Ampere queria nos mostrar era para inferência de IA na difusão estável e no sistema de recomendação DLRM, que mostrava um rack cheio de sistemas Ampere One de 160 núcleos superando as peças de 96 núcleos da AMD. Exceto que não foi exatamente uma luta justa. Os sistemas Ampere não apenas estavam executando um kernel Linux mais recente para o modelo DLRM, mas também em FP16 sem sobrecargas de tempo de execução do Docker. Enquanto isso, o sistema Genoa estava travado no FP32. Como a precisão mais baixa geralmente gera melhorias de desempenho consideráveis ​​em detrimento da precisão, é difícil levar a comparação a sério. Não é uma comparação de maçãs com maçãs.

AMD e Intel se aproximam do território da Ampere

Os gráficos de desempenho incomuns destacam o fato de que o Genoa da AMD e o Sapphire Rapids da Intel não são os chips com os quais a Ampere deveria se preocupar.

Quando o Ampere One chegar ao mercado em volume, ele terá que enfrentar os chips Bergamo de 128 núcleos da AMD – esperados para o próximo mês – e alguns meses depois os Sierra Forest Xeons com núcleo de eficiência da Intel.

Tanto a Sierra Forest quanto a Bergamo são projetadas para combater o aumento das CPUs Arm na nuvem. Ambos são construídos em torno dos mesmos conceitos básicos da família de CPUs Altra e One da Ampere, pois apresentam um grande número de núcleos de energia relativamente baixa.

E embora o ecossistema Arm tenha amadurecido muito, ajudado em grande parte pelos esforços da Ampere e da AWS para popularizar o ISA no datacenter, você simplesmente não pode superar o x86 em compatibilidade herdada. Se rodar em um Xeon ou Epyc hoje, rodará em Sierra Forest ou Bergamo amanhã.

Apesar dessa ameaça, Wittich continua confiante de que Ampere pode se defender. “É validar que não somos os únicos neste espaço. Teria sido assustador se olhássemos em volta e todos dissessem que o que aqueles caras do Ampere estão fazendo é inútil”, disse ele. ®

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo