technology

Schneider Electric prevê datacenters de IA do futuro • Strong The One

.

A infraestrutura por trás das cargas de trabalho populares de IA é tão exigente que a Schneider Electric sugeriu que talvez seja altura de reavaliar a forma como construímos datacenters.

Em um artigo técnico recente [PDF], a multinacional francesa analisou vários dos fatores que tornam a acomodação das cargas de trabalho de IA tão desafiadora e ofereceu orientações sobre como os futuros datacenters poderiam ser otimizados para eles. A má notícia é que algumas das recomendações podem não fazer sentido para as instalações existentes.

O problema se resume ao fato de que as cargas de trabalho de IA geralmente exigem redes de baixa latência e alta largura de banda para operar com eficiência, o que força a densificação dos racks e, em última análise, pressiona os sistemas de fornecimento de energia e gerenciamento térmico dos datacenters existentes.

Hoje não é incomum que as GPUs consumam mais de 700W e os servidores excedam 10kW. Centenas desses sistemas podem ser necessários para treinar um grande modelo de linguagem em um prazo razoável.

De acordo com Schneider, isso já está em desacordo com o que a maioria dos datacenters consegue gerenciar de 10 a 20 kW por rack. Este problema é agravado pelo facto de as cargas de trabalho de formação beneficiarem fortemente da maximização do número de sistemas por rack, uma vez que reduz a latência da rede e os custos associados à óptica.

Em outras palavras, espalhar os sistemas pode reduzir a carga em cada rack, mas se isso exigir o uso de óptica mais lenta, podem ser introduzidos gargalos que afetam negativamente o desempenho do cluster.

“Por exemplo, usar GPUs que processam dados da memória a 900 GB/s com uma estrutura de computação de 100 GB/s diminuiria a utilização média da GPU porque ela está esperando na rede para orquestrar o que as GPUs farão a seguir”, diz o relatório. “Isso é como comprar um veículo autônomo de 500 cavalos de potência com uma série de sensores rápidos se comunicando por uma rede lenta; a velocidade do carro será limitada pela velocidade da rede e, portanto, não utilizará totalmente a potência do motor”.

A situação não é tão terrível para a inferência – o ato de colocar modelos treinados para funcionar, gerando texto, imagens ou analisando montanhas de dados não estruturados – já que são necessários menos aceleradores de IA por tarefa em comparação com o treinamento.

Então, como fornecer energia adequada de forma segura e confiável a esses densos racks de mais de 20 quilowatts e como rejeitar com eficiência o calor gerado no processo?

“Estes desafios não são intransponíveis, mas os operadores devem prosseguir com uma compreensão completa dos requisitos, não apenas no que diz respeito às TI, mas à infra-estrutura física, especialmente às instalações existentes dos centros de dados”, escrevem os autores do relatório.

O whitepaper destaca diversas mudanças na alimentação, refrigeração, configuração de rack e gerenciamento de software do datacenter que as operadoras podem implementar para mitigar as demandas da adoção generalizada de IA.

Precisa de mais potência!

A primeira envolve o fornecimento de energia e exige a substituição da distribuição de energia de 120/280 V por sistemas de 240/415 V para reduzir o número de circuitos em racks de alta densidade. No entanto, isto por si só não é uma solução milagrosa e Schneider observa que mesmo utilizando as unidades de distribuição de energia (PDUs) de maior classificação, os operadores atuais serão desafiados a fornecer energia adequada para configurações mais densas.

Como resultado, podem ser necessárias múltiplas PDUs por rack ou os operadores podem precisar adquirir PDUs personalizadas com capacidade superior a 60-63 amperes.

Nas tensões e correntes mais altas, a Schneider alerta os operadores para realizarem uma avaliação de risco de arco elétrico e análise de carga para garantir que os conectores corretos sejam usados ​​para evitar ferimentos ao pessoal. O arco elétrico não deve ser considerado levianamente e pode resultar em queimaduras, cegueira, choque elétrico, perda auditiva e/ou fraturas.

Claro que eles são fãs de refrigeração líquida

Quando se trata de gerenciamento térmico, a orientação da Schneider não surpreende ninguém: refrigeração líquida. “O resfriamento líquido para TI existe há meio século para computação especializada de alto desempenho”, enfatizam os autores.

Quanto a quando os operadores de datacenters deveriam considerar seriamente fazer a mudança, Schneider coloca esse limite em 20kW por rack. A empresa argumenta que, para cargas de trabalho menores de treinamento ou inferência, o resfriamento do ar é adequado até este ponto, desde que sejam utilizadas práticas adequadas de gerenciamento do fluxo de ar, como painéis cegos e contenção de corredores. Acima de 20kW e Schneider diz que “deve-se dar muita consideração aos servidores com refrigeração líquida”.

Quanto à tecnologia específica a ser empregada, a empresa prefere o resfriamento direto por líquido (DLC), que remove o calor ao passar fluidos por placas frias fixadas em pontos de acesso, como CPUs e GPUs.

A empresa não gosta tanto de sistemas de refrigeração por imersão, especialmente aqueles que utilizam refrigerantes bifásicos. Alguns desses fluidos, incluindo aqueles fabricados pela 3M, foram associados a PFAS – também conhecidos como produtos químicos para sempre – e retirado do mercado. Para aqueles que já querem mergulhar seus servidores em grandes tanques de refrigerante, Schneider sugere usar fluidos monofásicos, mas alerta que eles tendem a ser menos eficientes na transferência de calor.

De qualquer forma, Schneider alerta que deve-se ter cuidado ao selecionar sistemas refrigerados a líquido devido a uma situação geral falta de padronização.

Não se esqueça da infraestrutura de suporte, software

É claro que tudo isso pressupõe que o resfriamento líquido seja prático. Dependendo das restrições da instalação – falta de altura adequada do piso elevado para a passagem da tubulação, por exemplo – a modernização de uma instalação existente pode não ser viável.

E onde essas modificações térmicas e de energia podem ser feitas, Schneider diz que os operadores podem precisar considerar racks para serviços mais pesados. O documento pede gabinetes de 48U e 40 polegadas de profundidade que possam suportar capacidades estáticas de pouco menos de duas toneladas – para referência, são cerca de 208 texugos adultos – para abrir espaço para a maior área ocupada associada a sistemas de IA e PDUs.

Por fim, o grupo recomenda o emprego de uma variedade de plataformas de software de infraestrutura de datacenter (DCIM), energia elétrica (EPMS) e sistema de gerenciamento predial (BMS) para identificar problemas antes que eles destruam sistemas adjacentes e afetem negativamente as cargas de trabalho críticas para os negócios. ®

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo