Ciência e Tecnologia

A futilidade de estender o resfriamento por ar resfriado | Strong The One

.

Dois anúncios recentes de duas das maiores empresas do mundo enviaram o sinal mais claro até agora de que a era dos sistemas de ar refrigerado está a chegar ao fim.

De acordo com um relatório em A informaçãoAmin Vahdat, gerente geral de aprendizado de máquina, sistemas e IA em nuvem do Google, disse na conferência Hot Chips que a empresa teve que fazer grandes mudanças em seus data centers para acomodar sua capacidade expandida de chips de IA, principalmente mudando de refrigeração a ar para refrigeração líquida com melhorias visíveis no desempenho e confiabilidade.

E Jensen Huang, CEO da NVIDIA, talvez o garoto-propaganda da era da IA ​​generativa, previsto Um trilhão de dólares será gasto ao longo de quatro anos na atualização de data centers para IA, incluindo a necessidade crescente de manter esses chips de IA resfriados.

Os sistemas de ar refrigerado têm sido companheiros leais da maioria dos operadores de data centers há anos, mas as ineficiências desses sistemas estão ficando expostas à medida que as demandas pelo consumo de eletricidade e pelo uso de água continuam a disparar. Continuar nesse caminho é utilizar um instrumento contundente num problema cada vez mais complexo, condenando as empresas a uma vida de crescente sofrimento operacional.

Uma olhada nos números revela o quão cegos são os sistemas de ar resfriado. O principal gerador de calor em qualquer data center é a CPU de cada servidor. Um data center típico de 10.000 pés quadrados pode conter 400 racks de servidores, o que significa que pode haver 16.000 CPUs precisando de resfriamento.

Mas cada CPU tem apenas 1.600 milímetros quadrados, então a área total das CPUs é de apenas 275 pés quadrados. Usando refrigeração a ar, os data centers empregam sistemas de AC projetados para todo o edifício – resfriando todo o espaço de 10.000 pés quadrados em vez dos 275 pés quadrados de produção de calor. Isso é 36 vezes menos eficiente do que o necessário.

A meta móvel da eficiência operacional

Dada a natureza contundente dos sistemas de ar refrigerado, os operadores de data centers precisam investir uma boa quantidade de esforço operacional e de projeto para obter alguma eficiência operacional razoável. Mas isso acaba sendo um projeto em andamento porque as distribuições de servidores e racks mudam com o tempo, seja pelos chips ficando mais quentes com modelos de servidores sucessivos ou pela pressão para gerenciar orçamentos, espaço ou iniciativas ESG.

Um dos problemas mais complicados ocorre porque o calor não é distribuído uniformemente em nenhum nível — no espaço físico, ou dentro de um rack, ou mesmo dentro de um servidor específico. Como a distribuição térmica é irregular, o ar resfriado proveniente do piso elevado é aquecido pelos servidores inferiores e pode estar quente demais para resfriar efetivamente os servidores superiores no rack. E como a maioria dos data centers não faz imagens térmicas de seus racks, os únicos sintomas podem ser que os servidores superiores estejam funcionando de forma acelerada ou tenham vida útil mais curta do que os servidores inferiores.

Seria tentador compensar aumentando o fluxo de ar resfriado ou tornando o ar mais frio, mas ambas são opções caras. E uma consequência não intencional do uso de ar cada vez mais frio é que os servidores inferiores podem estar tão frios que existe o perigo de condensação, que tem o potencial de causar curtos-circuitos. É uma situação sem saída.

Gerenciando densidades térmicas de rack mais altas

Na última década, as densidades térmicas médias dos racks quadruplicaram à medida que as CPUs dos servidores ficaram mais quentes (aproximadamente dobrando a potência térmica de 100 W para 200 W). A indústria de HVAC de data centers respondeu com um número crescente de produtos projetados para fornecer alguma combinação de mais ar, ar mais frio ou ar direcionado.

A maioria destes produtos, desde bsistemas AC maiores e mais robustos para arejar manipuladores e torres de resfriamento exigem modelagem CFD térmica sofisticada no nível do data center para acertar e arcar com seus próprios custos e complexidades. Por exemplo, a implementação de sistemas de contenção de corredor quente e corredor frio pode interferir nos sistemas de supressão de incêndio.

Pode parecer possível, no papel, que os sistemas de ar refrigerado consigam gerir densidades térmicas de rack mais elevadas, mas a realidade prova o contrário. À medida que a energia térmica das CPUs dos servidores acelerar nos próximos anos para a faixa de 50 kW, o uso de ar simplesmente se tornará insustentável.

Uma solução: resfriamento líquido

É claro que, em algum momento, chutar a lata adiante com o resfriamento por ar resfriado leva a retornos decrescentes, custos exponencialmente maiores e a um beco sem saída. Há alguma esperança pela frente, no entanto.

A refrigeração líquida é o futuro dos data centers, permitindo maior densidade de servidores por rack e maior desempenho de computação, ao mesmo tempo que melhora a sustentabilidade através da redução do consumo de eletricidade, água e custos. Uma abordagem específica, o resfriamento líquido direto no chip, é a maneira mais direcionada e eficiente de resfriar os chips quentes no data center. Direct-to-chip resolve o problema contundente dos instrumentos resfriando apenas os 275 pés quadrados de CPUs, em vez de um edifício de 10.000 pés quadrados, e fornece aos operadores uma maneira consistente e de baixo risco de manter a eficiência operacional e as densidades térmicas do rack.

Numa altura em que o uso de energia nos centros de dados está a aumentar e a caminho de aumentar, os operadores devem dizer adeus à abordagem tradicional de refrigeração a ar e procurar um método mais eficiente e fiável. O Google e a NVIDIA viram o futuro, e esse futuro é a refrigeração líquida.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo