technology

Consórcio Ultra Ethernet quer ajustar redes AI, HPC • Strong The One

.

Um grupo de empresas de tecnologia iniciou um projeto para adaptar o padrão Ethernet para torná-lo mais adequado aos exigentes requisitos de rede de aplicativos de IA e computação de alto desempenho (HPC).

O Consórcio Ultra Ethernet (UEC) visa criar uma “arquitetura de pilha de comunicação baseada em Ethernet completa” que será tão onipresente e econômica quanto a Ethernet, oferecendo o desempenho de uma interconexão de supercomputação.

Os membros fundadores do consórcio incluem aqueles fortemente envolvidos em HPC e redes, incluindo Intel, AMD, HPE, Arista, Broadcom, Cisco, Meta e Microsoft, com o projeto em si hospedado na The Linux Foundation.

O presidente da UEC, Dr. J Metz, disse Strong The One o objetivo do projeto não é mudar a Ethernet, mas ajustá-la para acomodar melhor as características mais exigentes das cargas de trabalho de IA e HPC.

“Ethernet é a tecnologia base sobre a qual construímos, já que é o melhor exemplo da indústria de tecnologia de rede básica de longa duração, flexível e adaptável”, disse ele.

“O objetivo da UEC é focar em como transportar melhor o tráfego de carga de trabalho de IA e HPC sobre Ethernet. Claro, houve algumas tentativas de fazer isso antes, mas nenhuma foi projetada desde o início para cargas de trabalho de IA e HPC altamente exigentes e nenhuma foi aberta, fácil de usar e ganhou ampla adoção.”

O projeto visa várias camadas da pilha de rede com grupos de trabalho encarregados de desenvolver “especificações que aprimoram o desempenho, latência e gerenciamento” tanto da camada física quanto da camada de link, além de desenvolver especificações para a camada de transporte e a camada de software.

De acordo com um papel branco [PDF], a rede está se tornando cada vez mais crítica para o treinamento de modelos de IA, que estão aumentando de tamanho; alguns tem trilhões de parâmetros e precisam ser treinados em grandes clusters de computação, e a rede precisa ser o mais eficiente possível para manter esses clusters ocupados.

Embora as cargas de trabalho de IA tendam a consumir muita largura de banda, o HPC também inclui cargas de trabalho mais sensíveis à latência, e ambos os requisitos precisam ser atendidos.

Para atender a essas necessidades, a UEC identificou como características desejáveis: ordem de entrega flexível; mecanismos modernos de controle de congestionamento; pulverização de pacotes e caminhos múltiplos; além de maior escalabilidade e telemetria de ponta a ponta.

De acordo com o whitepaper, a ordenação rígida de pacotes usada por tecnologias mais antigas limita a eficiência ao impedir que dados fora de ordem sejam entregues diretamente da rede para o aplicativo. O suporte para APIs modernas que relaxam os requisitos de ordenação de pacotes é fundamental para reduzir as “latências finais”.

A pulverização de vários caminhos e pacotes envolve o envio simultâneo de pacotes ao longo de todos os caminhos de rede disponíveis entre a origem e o destino para obter o melhor desempenho.

O congestionamento de rede em AI e HPC é principalmente um problema no link entre o switch e um nó receptor se vários remetentes estiverem todos visando o mesmo nó. No entanto, os algoritmos atuais para gerenciar o congestionamento não atendem a todas as necessidades de uma rede otimizada para IA, afirma a UEC.

Principalmente, parece que o UEC pretende substituir o protocolo RDMA over Converged Ethernet (RoCE) por um novo protocolo de camada de transporte que forneça as características necessárias. Este Transporte Ultra Ethernet suportará multicaminho, entrega de pulverização de pacotes, algoritmos de controle de taxa eficientes e exporá uma API simples para cargas de trabalho de IA e HPC – ou pelo menos essa é a intenção.

O envolvimento da HPE no UEC é notável porque já possui uma interconexão HPC baseada em Ethernet. A tecnologia Cray Slingshot é um “superconjunto” de Ethernet, como descrito em detalhes por nossos colegas em A Próxima Plataformamantendo a compatibilidade com quadros Ethernet padrão, e participou de muitos dos projetos de supercomputadores com os quais a HPE esteve envolvida nos últimos anos, como o Sistema exascale de fronteira.

O gerente geral da HPE para interconexões de alto desempenho, Mike Vildibill, disse que a motivação da empresa em apoiar a UEC é impulsionada pelo desejo de garantir que o Slingshot opere em um ecossistema aberto.

“Gostaríamos que os NICs compatíveis com UEC experimentassem alguns dos benefícios de desempenho e escalabilidade de uma malha Slingshot”, disse ele. ®

O desenvolvimento do Slingshot pela HPE continuará no futuro, confirmou Vildibill, mas ele reconhece que sempre haverá algum NIC ou SmartNIC de terceiros que podem ter recursos que não estão implementados em seu Slingshot NIC.

“Portanto, a UEC fornece um mecanismo para estabelecer um ecossistema robusto de NICs de terceiros para garantir que possamos oferecer suporte a uma ampla gama de requisitos do cliente, ao mesmo tempo em que fornece alguns dos recursos exclusivos do Slingshot”, disse ele.

O UEC está nos estágios iniciais de desenvolvimento e os principais conceitos técnicos ainda estão sendo identificados e trabalhados. Metz disse que os primeiros rascunhos ratificados provavelmente estarão prontos no final de 2023 ou início de 2024, e os primeiros produtos baseados em padrões também são esperados no próximo ano. ®

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo