technology

Nosso hábito de IA já está mudando a forma como construímos datacenters • Strong The One

.

Análise A corrida louca para proteger e implantar a infraestrutura de IA está forçando os operadores de datacenter a reavaliar a maneira como constroem e administram suas instalações.

Em seu datacenter típico, o ar frio é puxado por um rack cheio de sistemas de computação, rede e armazenamento. Na parte de trás, o ar aquecido é capturado e ejetado pela infraestrutura de resfriamento da instalação.

Esse paradigma funciona muito bem para racks de 6 a 10 kW, mas começa a desmoronar quando você começa a implantar os tipos de sistemas usados ​​para treinar modelos de IA como o GPT-4. Os nós de GPU modernos podem facilmente consumir a energia de um rack inteiro. E isso está forçando os operadores de datacenter a fazer algumas mudanças sérias no design.

‘Modo ridículo’ para datacenters

Tesla parece ser o último a perceber isso. Como nós relatado no início desta semana, o fabricante de veículos elétricos dos EUA está procurando pessoas para ajudá-lo a construir “os primeiros datacenters de seu tipo”.

Em um recente anúncio de emprego, a empresa disse que estava procurando um gerente sênior de programa de engenharia para datacenters, que “liderará o design e a engenharia de ponta a ponta dos primeiros datacenters do tipo da Tesla e será um dos principais membros do sua equipe de engenharia.”

Essa pessoa também seria responsável por supervisionar a construção de um novo datacenter. Isso sugere que isso pode não estar relacionado aos relatórios de A informação reivindicando que a Tesla assumiu recentemente um aluguel de datacenter em Sacramento abandonado pelo Twitter após a aquisição da rede social pelo CEO Elon Musk.

Embora não esteja exatamente claro o que a empresa quer dizer com “datacenters pioneiros” – perguntamos à Tesla e ainda não recebemos uma resposta – pode ter algo a ver com o acelerador Dojo AI personalizado. mostrou-se no Hot Chips no ano passado.

A empresa planeja jogar fora mais de $ 1 bilhão no projeto entre agora e o final de 2024 para acelerar o desenvolvimento de seu software de direção autônoma. Falando em julho, Musk revelou que o sistema completo pode exceder 100 exaFLOPS, do que presumimos ser o desempenho do BF16.

Isso significa que Tesla terá que encontrar um lugar capaz de abrigar a coisa e alguém para manter as luzes acesas e todos esses pontos flutuando. E com base no que sabemos do acelerador Dojo, arquitetar e gerenciar uma instalação capaz de fornecer energia e resfriamento adequados para manter o acelerador de IA funcionando pode ser um pesadelo.

Dojo é um supercomputador combinável, desenvolvido inteiramente internamente pela Tesla. Tudo, desde computação, rede, IO até a arquitetura do conjunto de instruções, fornecimento de energia, empacotamento e resfriamento, foi construído sob medida com o propósito expresso de acelerar os algoritmos de aprendizado de máquina da Tesla.

O bloco de construção básico deste sistema é o chiplet D1 da Tesla. Vinte e cinco deles são empacotados juntos usando a tecnologia system-on-wafer da TSMC no bloco Dojo Training. Ao todo, o sistema de meio pé cúbico possui 11 GB de SRAM, 9 TB/s de conectividade de malha e pode gerenciar 9 petaFLOPS de desempenho BF16. você pode encontrar um repartição completa do enorme acelerador de IA em nosso site irmão, A Próxima Plataforma.

Claro, amontoar todo esse desempenho em um fator de forma tão compacto apresenta alguns desafios únicos, como como você alimenta e resfria um único acelerador de 15kW, sem falar nos seis deles que compõem o sistema 1 exaFLOPS Dojo V1. E isso é apenas os aceleradores. Você também precisa alimentar e resfriar todos os sistemas de suporte usados ​​para alimentar e coordenar o fluxo de dados por meio dos aceleradores.

Depois, há a questão da malha de alta velocidade, que pode ser proibitiva em termos de como esses ladrilhos podem ser implantados. Nessas velocidades, quanto mais perto você puder embalá-los, melhor, mas também maior será a carga térmica. Como tal, não seria surpreendente se a Tesla abandonasse completamente a ideia de usar racks tradicionais em favor de algo completamente único.

Este humilde abutre adoraria pessoalmente ver um retorno aos designs selvagens e malucos de supercomputação de outrora. Os supercomputadores costumavam ser estranhos e divertidos. Não acredita em mim? Basta procurar o Thinking Machine’s CM-1 ou o Cray-2. Essas eram algumas máquinas de boa aparência.

Qualquer que seja a forma que esse sistema assuma, uma coisa é certa: onde quer que a Tesla decida implantar o sistema, será necessário níveis de supercomputação de capacidade de resfriamento a água.

A IA já está mudando a cara dos datacenters

Não é só a Tesla. Os requisitos de resfriamento e energia impostos pela infraestrutura de IA já estão levando vários grandes hiperescaladores e operadores de DC a reavaliar como constroem seus datacenters.

Uma das empresas que impulsionam essas mudanças é a Meta, controladora do Facebook. A empresa investe fortemente em pesquisa e desenvolvimento de IA, tendo comissionado um supercomputador AI composto por 16.000 GPUs Nvidia A100 no ano passado.

Essa infraestrutura não apenas ajudou a alimentar o desenvolvimento de modelos de IA, como o código não exatamente aberto Llama 2 grande modelo de linguagem, mas serviu para moldar a própria infraestrutura. A Meta, ou melhor, o Facebook, lançou o Open Compute Project (OCP) em 2011 para acelerar o desenvolvimento da infraestrutura do datacenter.

No OCP Summit do ano passado, a Meta revelado sua plataforma de treinamento Grand Teton AI juntamente com sua especificação Open Rack v3 (ORV3), que foi projetada para acomodar as cargas térmicas e de maior potência do sistema. Por exemplo, sob a especificação, a Meta diz que uma única barra de barramento pode suportar racks de 30kW.

“Com maior consumo de energia, vem uma sobrecarga de gerenciamento térmico cada vez mais complexa. O ecossistema ORV3 foi projetado para acomodar várias formas diferentes de estratégias de resfriamento líquido, incluindo resfriamento líquido assistido por ar e resfriamento de água da instalação”, escreveu o vice-presidente de infraestrutura da Meta, Alexis Bjorlin, em a postagem no blog último outono. “A tendência de aumento de energia que estamos vendo e a necessidade de avanços no resfriamento líquido estão nos forçando a pensar de maneira diferente sobre todos os elementos de nossa plataforma, rack, energia e design de datacenter.”

Esse último ponto sobre o design do datacenter é particularmente importante, pois não muito depois da postagem do blog, Meta cancelado dois datacenters holandeses e anunciou que redesenhar um terceiro em Huntsville, Alabama, em meio ao que a empresa descreveu como um “investimento estratégico em inteligência artificial”.

O resfriamento líquido assistido por ar ocupa o centro do palco

Uma das principais tecnologias em que Meta e outros estão investindo é algo chamado resfriamento líquido assistido por ar. Como o próprio nome sugere, a tecnologia é meio passo em direção aos tipos de infraestrutura totalmente refrigerada a líquido que vimos nos supercomputadores HPE Cray, Atos e Lenovo por anos.

A tecnologia faz uso extensivo de trocadores de calor de porta traseira (RDHx) para reduzir os investimentos em infraestrutura em toda a instalação necessários para suportar chips de funcionamento mais quente. Os RDHx são realmente muito simples, chegando a pouco mais do que um radiador do tamanho de um rack e alguns ventiladores grandes. A tecnologia é preferida por muitos devido à sua flexibilidade, o que permite que ela seja implantada em instalações com ou sem o encanamento necessário para oferecer suporte ao resfriamento líquido em nível de rack.

No caso da Meta, a empresa está olhando para o RDHx como um meio de remover o calor dos sistemas com mais eficiência. Pelo que entendemos, a implementação envolve servidores refrigerados a líquido direto (DLC), que são canalizados para um reservatório e uma bomba no rack, que impulsiona o refrigerante aquecido através do RDHx, onde o calor dos sistemas é exaurido para o corredor quente.

Nessa configuração, o RDHx funciona muito como um loop de resfriamento de água personalizado em um PC para jogos, mas, em vez de resfriar um sistema, ele foi projetado para resfriar todo o rack.

No entanto, esta não é a única maneira de ver o resfriamento líquido assistido por ar. O RDHx também pode ser usado para resfriar com ar. Nesta configuração, a água fria da instalação é bombeada através do RDHx. À medida que o ar quente sai pela parte traseira dos sistemas refrigerados a ar, esse calor é absorvido pelo radiador. A Meta publicou um artigo completo sobre a viabilidade dessa tecnologia em outubro passado [PDF].

Vários provedores de colocation, incluindo Digital Realty, Equinix, Cyxtera e Colovore confirmaram o suporte para resfriamento RDHx em seus datacenters. Embora seja nosso entendimento que geralmente é um tipo de pedido personalizado.

Um dos maiores benefícios dessa abordagem, especialmente para colos, é que ela não exige que os clientes adotem o DLC antes de estarem prontos e não exige que eles suportem o campo minado de padrões conflitantes que apimentam a indústria de refrigeração líquida.

Os benefícios dessa tecnologia também não se limitam às cargas de trabalho de IA ou HPC. À medida que as CPUs ficam mais quentes e mais densas, os fabricantes de chips – AMD e Ampere em particular – têm vendido a perspectiva de adensamento. Em outras palavras, consolidar vários racks potencialmente cheios de servidores mais antigos em um punhado de contagens de núcleo alto.

O problema é que esses sistemas densos de núcleo usam tanta energia que é provável que você fique sem energia antes que o rack esteja quase cheio. As configurações de rack de maior densidade e os trocadores de calor de porta traseira têm o potencial de permitir que os clientes amontoem grande parte de sua infraestrutura em um punhado de racks. ®

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo