technology

Broadcom diz que o Spectrum-X da Nvidia não é tão especial • Strong The One

.

Na Computex, a Nvidia prometeu “Ethernet sem perdas” para cargas de trabalho de IA generativas com o lançamento de sua plataforma Spectrum-X – mas se você perguntar à Broadcom, nem é uma ideia nova.

“Não há nada de único no dispositivo deles que já não tenhamos”, disse Ram Velaga, vice-presidente sênior do grupo principal de comutação da Broadcom. Strong The One.

Ele explicou que o que a Nvidia realmente fez com o Spectrum-X foi construir uma plataforma Ethernet verticalmente integrada que seja boa em gerenciar o congestionamento de uma forma que minimize as latências de cauda e reduza os tempos de conclusão do trabalho de IA.

Velaga argumenta que isso não é diferente do que a Broadcom fez com seus Tomahawk5 e Jericho3-AI alternar ASICs. Ele também vê isso como uma admissão da Nvidia de que a Ethernet faz mais sentido para lidar com fluxos de GPU em IA.

Nvidia Spectrum-X

A Nvidia, por sua vez, não desistiu da rede InfiniBand. O InfiniBand é ótimo para quem executa várias cargas de trabalho muito grandes, como GPT3 ou gêmeos digitais. No entanto, Gilad Shainer, vice-presidente de marketing da divisão de rede da Nvidia, disse Strong The One que em alguns ambientes, particularmente em nuvens multilocatário, a Ethernet é a preferida.

Para cargas de trabalho AI/ML menores, disse Shainer, a infraestrutura Ethernet tradicional funcionou muito bem – mas agora que essas cargas de trabalho estão crescendo além de um nó, é simplesmente muito lento.

A plataforma Spectrum-X da Nvidia afirma enfrentar esse desafio.

Para ser claro, o Spectrum-X da Nvidia não é um produto. É uma coleção de hardware e software, a maioria dos quais abordamos no passado. Os principais componentes incluem 51,2 Tbit/s da Nvidia Comutador Ethernet Spectrum-4 e BlueField-3 unidade de processamento de dados (DPU).

A ideia básica é que, desde que você esteja usando o switch da Nvidia e seu DPU, eles trabalharão juntos para mitigar o congestionamento do tráfego e – se a Nvidia é confiável – eliminar completamente a perda de pacotes.

Embora Shainer afirme que esta é uma unidade de capacidade completamente nova para a Nvidia, Velaga argumenta que a ideia de “Ethernet sem perdas” é apenas marketing. “Não é tanto sem perdas, mas você está gerenciando o congestionamento tão bem que tem uma malha Ethernet de alta eficiência”, argumentou.

Em outras palavras, em vez de uma rede Ethernet onde a perda de pacotes é um dado, é a exceção à regra. Ou essa é a ideia, de qualquer maneira.

Além do mais, Velaga afirma que esse tipo de gerenciamento de congestionamento já está embutido na última geração de ASICs de switch da Broadcom – só que eles funcionam com smartNIC ou DPU de qualquer fornecedor ou provedor de serviços em nuvem. “Você não precisa fazer isso no NIC, pode fazê-lo de uma folha de Jericho3-AI para outra folha de Jericho3-AI”, acrescentou.

Quando perguntamos a Shainer sobre o Tomahawk5 e o Jericho3-AI da Broadcom, ele se recusou a fazer comparações com os chips, argumentando que o Spectrum-X estava em uma classe própria e insinuando que alguns fornecedores estavam simplesmente acrescentando “IA” aos produtos existentes.

“Não há nada lá fora, independentemente de como você chama, que tenha os recursos projetados para IA”, disse ele.

Integração vertical x desagregação

De acordo com Velaga, o tipo de integração vertical que a Nvidia está tentando alcançar está em conflito com a Ethernet. “Toda a razão pela qual a Ethernet é bem-sucedida hoje é um ecossistema muito aberto”, disse ele.

Por causa disso, o Spectrum-X da Nvidia pode ser uma venda difícil para os provedores de nuvem, que tendem a evitar o bloqueio de fornecedores sempre que possível. Seu desejo intenso de evitá-lo levou à adoção generalizada de sistemas operacionais de rede independentes de fornecedores, como o SONiC. Isso permitiu que eles executassem suas nuvens em qualquer switch compatível.

Por que vale a pena, Nvidia Spectrum-4 suporta SONiC, bem como seu próprio Cumulus NOS e o driver Linux Switch. No entanto, como a plataforma Spectrum-X depende de ter o Spectrum-4 e o BlueField, você não pode simplesmente trocar um por outro switch ou DPU compatível com SONiC sem perder recursos.

Falando em DPUs, muitos dos maiores provedores de serviços em nuvem já possuem SmartNICs sintonizados em seus ambientes. Amazon Web Services tem Nitro, Google co-desenvolveu um SmartNIC baseado em ASIC com Intel e Microsoft adquirido fungível em janeiro. Esses dispositivos são incrivelmente valiosos para os provedores de nuvem, pois permitem que eles descarreguem cargas de trabalho comuns de rede, armazenamento e segurança, liberando a CPU para executar cargas de trabalho de locatário.

Shainer diz que está perfeitamente bem. Ele argumenta que os provedores de nuvem podem usar seus DPUs existentes para gerenciar sua infraestrutura e controlar o tráfego norte/sul e usar o BlueField-3 da Nvidia para o tráfego leste-oeste entre os nós do cluster.

Ele acrescentou que não há nada que impeça alguém de implantar switches ou DPUs da Nvidia como produtos independentes.

“Se alguém quiser pegar nossos interruptores e construir seu próprio material, será mais do que bem-vindo. Se alguém quiser pegar nossos DPUs e usar os interruptores de outra pessoa, com certeza – vá em frente. Você mesmo pode desenvolver essas coisas”, disse Shainer. “Mas se você deseja obter algo totalmente otimizado, com pilha completa… e instalar o sistema em quatro semanas e não em seis, sete ou oito meses? Não tem preço.”

Velaga, da Broadcom, não tem certeza de como essa ideia será recebida pelos clientes. “É difícil dizer como eles venderão o valor de uma solução Ethernet integrada verticalmente em um mundo onde tudo está desagregado.” ®

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo