.
A Broadcom pretende capitalizar a corrida armamentista de IA com um chip de switch ajustado para grandes clusters de GPU.
O Jericho3-AI ASIC da empresa, apresentado esta semana, foi projetado para oferecer comutação de alto desempenho em velocidades de porta de até 800 Gbps e dimensionar para conectar mais de 32.000 GPUs.
Para fazer isso, a Broadcom está usando um arranjo assimétrico de serializadores/desserializadores (SerDes) que priorizam a conectividade de malha. O chip em si possui 304, 106 Gbps PAM4 SerDes com 144 dedicados a portas de switch e 160 alocados para o switch fabric. O último é importante, pois permite que vários ASICs sejam unidos para suportar clusters de GPU massivos.
De acordo com Pete Del Vecchio, da Broadcom, essa divisão assimétrica também ajuda o chip a lidar melhor com o congestionamento da rede e a superar falhas de rede.
Como grandes modelos de IA precisam ser distribuídos em vários nós, esses fatores podem ter um impacto descomunal nos tempos de conclusão em comparação com a execução de modelos menores em um único nó. A acreditar nos benchmarks internos da Broadcom, seus ASICs Jericho3-AI tiveram um desempenho cerca de 10% melhor em uma carga de trabalho de AI “All-to-All” em comparação com “soluções de rede alternativas”.
Enquanto a maioria dos switches de 400 Gbps e 800 Gbps, como o Tomahawk 5 da Broadcom anunciado No ano passado, foram projetados com a agregação em mente, o Jericho3-AI foi desenvolvido como um switch top-of-rack de alto desempenho que faz interface diretamente com os clientes. Mas, embora a Broadcom afirme que o switch suporta até 18 portas a 800 Gbps cada, esse caso de uso ainda não está pronto para o horário nobre.
“Em geral, os sistemas de IA de ponta estão passando de 200 GbE agora para 400 GbE no futuro”, disse Del Vecchio. “Temos muitos clientes que têm chips de treinamento AI/ML em desenvolvimento que estão dizendo especificamente que desejam ter uma interface de 800 GbE.”
No momento, isso coloca o limite prático em 400 Gbps por porta, pois essa é a largura de banda máxima suportada pelo barramento PCIe 5.0. E lembre-se de que isso ocorre apenas na última geração de plataformas de servidor da AMD e da Intel. Os sistemas Intel Ice Lake e AMD Milan mais antigos serão limitados a 200 Gbps por NIC. Mas como o switch usa PAM4 SerDes de 106 Gbps, o ASIC pode ser ajustado para suportar velocidades de porta de 100, 200 e 400 Gbps.
No entanto, Del Vecchio observa que vários fabricantes de chips estão integrando NICs diretamente no acelerador – H100 CNX da Nvidia para exemplo — para evitar esses gargalos. Portanto, é possível que possamos ver portas de 800 Gbps incorporadas aos aceleradores antes que os primeiros sistemas compatíveis com PCIe 6.0 cheguem ao mercado.
Ainda assim, 400 Gbps parece ser o ponto ideal para o Jericho3-AI, que suporta até 36 portas nessa velocidade. Embora isso possa parecer um exagero para um switch top-of-rack, não é incomum ver nós de GPU com uma NIC de 200-400 Gbps por GPU. O DGX H100 da Nvidia, por exemplo, possui oito ConnectX 7s de 400 Gbps para cada uma de suas GPUs SXM5. Para um rack de quatro nós — tamanho físico, consumo de energia e energia do rack muitas vezes impedem maiores densidades — isso funciona para 32 portas, bem dentro dos recursos do novo ASIC da Broadcom.
Olhando para o Jericho3-AI da Broadcom, é difícil não fazer comparações com os switches Spectrum Ethernet e Quantum InfiniBand da Nvidia, que são amplamente implantados em ambientes de computação e IA de alto desempenho, inclusive no cluster que a Microsoft construiu para OpenAI que foi detalhado por nosso site irmão The Next Platform no mês passado.
O switch Quantum-2 InfiniBand da Nvidia possui 25,6 Tbps de largura de banda e suporte para 64 portas de 400 Gbps – o suficiente para cerca de oito sistemas DGX H100 de nosso exemplo anterior.
Del Vecchio argumenta que muitos hiperescaladores estão desenvolvendo seus próprios aceleradores de IA – AWS e Google vêm à mente – e querem manter a Ethernet padrão do setor.
Embora a Broadcom diga que seus chips Jericho3-AI estão chegando aos clientes agora, levará um pouco mais de tempo até que esses chips sejam integrados ao chassi OEM e possam fazer sua estreia no datacenter. ®
.