.
A Cisco aproveitou o movimento da rede AI, juntando-se à Broadcom e à Nvidia com um switch de 51,2 Tbit/s que afirma ser capaz de reunir pelo menos 32.000 GPUs.
O switch ASIC, codinome G200, foi desenvolvido sob o portfólio Silicon One da Cisco e é direcionado a redes em escala da Web que consomem muita largura de banda, bem como a clusters de computação AI/ML maiores.
O próprio chip oferece o dobro da largura de banda do G100 ASIC mais antigo da Cisco, dobrando o número de serializadores/desserializadores de 112 Gbit/seg (SerDes) de 256 para 512. Isso permite até 64x 800Gbit/seg, 128x 400Gbit/seg ou 256x 200Gbit/seg. sec, dependendo do aplicativo e da densidade de porta desejada.
Realisticamente, esperamos que a maior parte dos switches alimentados pelo G200 da Cisco atinjam o limite de 400 Gbit/s – essa é a largura de banda máxima suportada pelas NICs PCIe 5.0 hoje, e simplesmente não há muitos aplicativos – além da agregação – que podem aproveitar Ethernet de 800 Gbit/s em primeiro lugar.
Se você está se sentindo um pouco déjà vu neste ponto, pode ser porque vimos ASICs e switches semelhantes da Broadcom e da Nvidia, com suas linhas Tomahawk 5 e Spectrum-4, respectivamente. Ambos os switches possuem 51,2 Tbit/s de largura de banda e são posicionados como alternativas às redes InfiniBand para grandes clusters de computação de GPU.
Na verdade, o Cisco G200 promete muitos dos mesmos recursos e capacidades centrados em AI/ML prometidos por fornecedores de rede rivais. Todos os três prometem coisas como gerenciamento avançado de congestionamento, técnicas de pulverização de pacotes e failover de link.
Esses recursos são importantes, pois além de uma GPU ser capaz de saturar totalmente um link de 400 Gbit/s, a maneira como as cargas de trabalho são distribuídas nesses clusters os torna particularmente sensíveis à latência e ao congestionamento. Se houver backup do tráfego, as GPUs podem ficar ociosas, resultando em tempos de conclusão de trabalho mais longos.
Todos os três fornecedores dirão a você que esses recursos, combinados com algo como RDMA sobre Ethernet Convergente (RoCE), podem alcançar uma rede com perdas extremamente baixas usando Ethernet padrão e, por extensão, tempos de conclusão reduzidos.
“Obviamente existem vários switches de 51,2 Tbit/s no mercado. Minha opinião sobre a situação é que nem todos os switches de 51,2 Tbit/s são criados iguais. Muitas pessoas fazem reivindicações; poucas pessoas cumprem essas reivindicações”, Rakesh Chopra, que dirige o marketing da linha Silicon One da Cisco, disse Strong The One.
Embora a Broadcom e a Nvidia possam ter vencido a Cisco no mercado, Chopra argumentou que um dos principais diferenciais do G200 é o suporte para configurações 512x radix. Sem entrar no âmago da questão, um radix maior significa tecidos de switch menores e mais apertados.
A Cisco afirma que isso permite que o G200 seja dimensionado para oferecer suporte a clusters com mais de 32.000 GPUs – ou cerca de 4.000 nós – usando 40% menos switches e metade da óptica em comparação com um switch radix 256x semelhante. Pelo que podemos dizer, esta é uma tentativa do Tomahawk 5 da Broadcom, que destaca uma base de 256x 200 Gbit/seg, embora também possa se aplicar ao Spectrum-4 da Nvidia.
A Cisco afirma que seu Silicon One G200 ASIC permite redes mais densas e eficientes, conforme ilustrado neste gráfico fornecido – Clique para ampliar
Chopra afirmou que a Cisco é capaz de fazer isso porque as tecnologias da Silicon One são “massivamente” mais eficientes do que os switches concorrentes. Quanto mais eficiente, não sabemos – Chopra não nos disse quanta energia o G200 usa.
Ele disse que, para uma topologia de rede capaz de suportar 32.000 GPUs, o uso de switches baseados em G200 se traduziria em quase um megawatt de economia de energia em comparação com produtos concorrentes. Embora isso possa parecer impressionante, você provavelmente não notaria, já que um cluster desse tamanho pode extrair mais de 40 MW sob carga, e isso antes de levar em consideração o resfriamento do datacenter.
Mesmo assim, Chopra afirmou que qualquer economia vale a pena, especialmente para empresas cujas metas de sustentabilidade exigem compensar a energia que usam.
No entanto, em um e-mail para Strong The OneRam Velaga, vice-presidente sênior do grupo principal de comutação da Broadcom, argumentou que exemplo descrito pela Cisco era irreal e nunca seria implantado no mundo real.
“Por exemplo, eles mostram um link de 100 Gbit/s na malha fazendo a transição para um link de 400 Gbit/s para as GPUs, o que implica que você não pode usar a operação cut-through. Em vez disso, você precisa usar um armazenamento de latência mais alta e -forward operação”, escreveu Velaga.
Velaga acrescentou que o Tomahawk 5 pode, de fato, suportar um cluster de 32.000 GPUs usando uma rede de duas camadas usando os 768 switches – o mesmo número da Cisco.
Também entramos em contato com a Nvidia para comentar e não recebemos resposta no momento da publicação.
Os ASICs Silicon One estão atualmente nas mãos dos clientes para integração em produtos finais. No entanto, Chopra não se comprometeria com um prazo em que podemos esperar que os produtos finais cheguem ao datacenter. ®
.








