Ciência e Tecnologia

Lições a serem aprendidas com a insolação do datacenter do Google e da Oracle

Comentário As ondas de calor do verão deste ano não estão apenas tornando a vida de um britânico comum um pouco miserável, mas também causaram problemas para alguns provedores de nuvem e administradores de servidor que tentavam manter seus equipamentos funcionando .

No mês passado, os datacenters do leste de Londres operados pelo Google e pela Oracle sofreram um colapso em meio à onda de calor mais forte já registrada na região. Partes do país chegaram a ultrapassar os 40°C.

Ambas as gigantes de TI citaram falhas em seus sistemas de refrigeração. Isso permitiu que as temperaturas dentro das instalações atingissem níveis indesejáveis ​​e forçou o desligamento dos sistemas e cargas de trabalho do cliente para evitar danos ao hardware e limitar a perda de dados.

Com os cientistas climáticos prevendo condições climáticas mais extremas para Venha, é de se perguntar o que pode ser aprendido com essas interrupções para mitigar futuros desastres.

O analista da Omdia Moises Levy, que passou a maior parte de sua carreira projetando e prestando consultoria em datacenters, disse que esses eventos ressaltam a importância do gerenciamento de riscos e planejamento ao projetar e manter essas instalações.

E embora ele tenha dito que esses tipos de interrupções não são tão comuns e podem ser difíceis de prever, aprender com esses incidentes é uma oportunidade que não deve ser desperdiçada pelos operadores e executivos do site.

Mantendo o equilíbrio

Conforme descrito por Levy, os datacenters operam em um equilíbrio bem ajustado em que as cargas de trabalho consomem energia e geram calor, e no calor tem que ser extraído por equipamentos que também normalmente requerem energia. A energia é igual ao custo, as cargas de trabalho são iguais à receita e o resfriamento é necessário para manter a receita da carga de trabalho fluindo sem muito custo. Refrigeração insuficiente equivale a danos e perda de receita; muito resfriamento também tem seus problemas. E o resfriamento custa dinheiro para instalar. É uma equação interessante para descobrir.

Ao equilibrar o uso de energia, resfriamento e densidade de computação, os operadores de datacenter geralmente consideram os piores cenários para evitar um possível tempo de inatividade. Essa é a estratégia empregada pela Equinix, que opera datacenters de colocation em todo o mundo.

“Projetamos para as condições climáticas locais, otimizando a seleção de plantas para confiabilidade e eficiência, tanto para a corrente máxima observada, e prever as piores temperaturas previstas no futuro”, disse Greg Metcalf, diretor sênior de design global da Equinix.

Isso pode ser tão simples quanto especificar e implantar plantas de resfriamento redundantes ou provisionar energia de backup adicional. Por exemplo, em climas geralmente quentes, como Dallas, Texas, a Equinix emprega um sistema de controle de temperatura complexo e altamente redundante para proteger suas instalações.

A falta de padrões está impedindo o resfriamento por imersão?

 

“As plantas de resfriamento são projetadas para as piores condições e são testadas na fábrica como tal”, disse Metcalf. “A implementação de redundância de hardware significa que, no caso de um pico de calor, as máquinas de backup podem ser chamadas para reduzir o esforço geral da produção de frio de um local específico.”

paralisação, o Google culpou uma “falha simultânea de vários sistemas de refrigeração redundantes combinados com as temperaturas externas extraordinariamente altas” pela falha.

É muito interessante ver o Google usar as palavras “simultâneo” e “redundante” na mesma frase dessa maneira, pois sugere que pode ter havido um único ponto de falha que causou a quebra de seus sistemas de regulação de temperatura, ou que a instalação foi projetada de tal forma que vários sistemas poderiam falhar em todos de uma só vez da mesma maneira.

Uma interrupção de datacenter ou nuvem geralmente ocorre após uma sequência longa ou mesmo curta de falhas. Uma coisa começa a dar errado ou está mal configurada, e isso faz com que outra coisa falhe, e isso pressiona outra coisa e, eventualmente, tudo desmorona. Prevenir uma interrupção envolve garantir que essas falhas individuais não se transformem em tempo de inatividade real.

Em uma onda de calor, por exemplo, os mecanismos para iniciar o equipamento de controle de temperatura de uma instalação e regulá-lo em A demanda precisa estar presente e operacional também, e se não estiver, bem, não importa quanta capacidade extra de resfriamento você tenha – ela não será usada a tempo, ou será usada.

“É muito importante olhar para o datacenter de forma abrangente e não em silos”, disse Levy. “Qualquer coisa pode afetar o outro e podemos ter um efeito cascata.”

Por exemplo, uma interrupção no fornecimento de energia elétrica do datacenter ou uma falha no sistema de controle de resfriamento, ou uma falha em responder ou detectar o aumento das temperaturas, pode levá-lo a uma interrupção.

Parece ter sido o que aconteceu com o Google e a Oracle, com falhas no sistema de refrigeração em meio a uma onda de calor histórica e avassaladora. O Google não disse (ou não quis dizer) O resfriamento do s simplesmente não conseguia mitigar o calor; ela disse que seu equipamento não funcionava quando era mais necessário.

Levy também apontou que nem todos os componentes de um datacenter são tão suscetíveis a temperaturas extremas quanto outros. As várias caixas encontradas em todo o datacenter, sejam elas orientadas para computação, rede ou armazenamento, funcionam dentro de uma faixa de temperaturas operacionais. Isso pode chegar a 90C a 100C para CPUs, ou 55C a 65C para discos rígidos.

A idade do equipamento também pode ser um fator. “Equipamentos mais antigos podem ser mais sensíveis a temperaturas mais altas. Equipamentos mais novos podem ser menos sensíveis e aceitarão faixas mais altas”, disse Levy. Observamos no início deste ano que o Google estendeu a vida útil de seus sistemas em nuvem em mais um ano para economizar dinheiro.

Outro ponto a ser lembrado: no caso de uma crise de resfriamento, não é sempre tão simples quanto desligar os sistemas são particularmente vulneráveis ​​ao excesso de calor, uma vez que os recursos de rede, armazenamento e computação são amplamente dependentes uns dos outros.

Por exemplo, uma máquina virtual pode ser executado em um nó de computação, mas seus recursos podem residir em um nó de armazenamento separado conectado pela rede. Se qualquer um dos três – computação, armazenamento, rede/orquestração – ficar inativo devido a falha de hardware ou para evitar danos, a máquina virtual também ficará.

Google: Tivemos que desligar um datacenter para salvá-lo durante a onda de calor de Londres

Implantar aplicativos à prova de desastres pode ser mais fácil do que você pensa

Google, servidores em nuvem Oracle murcham na onda de calor do Reino Unido, derrubam sites

DoE desenterra a tecnologia do reator nuclear de sal fundido, aproveita Los Alamos para liderar o caminho de volta

Complicar as coisas é o fato de calcular os recursos estão cada vez mais famintos por energia e, por extensão, mais quentes. Muitos aceleradores estão agora empurrando TDPs de 700W, com alguns construtores de caixas acumulando vários quilowatts de computação em um chassi de 2U.

Se os operadores de datacenter não considerarem isso com melhorias em sua infraestrutura de energia e refrigeração , isso pode resultar em problemas no futuro, explicou Levy.

Esse é o procedimento padrão da Equinix, que, além de levar em consideração sua carga de computação frequentemente variada, também considera fatores externos. “Os locais são analisados ​​quanto aos efeitos climáticos além do clima, como fontes de calor próximas, para capturar os vários elementos que afetam o aquecimento e resfriamento necessários”, disse Metcalf.

Lições para aprender

Embora seja fácil apontar para as ondas de calor sem precedentes da Grã-Bretanha e culpá-las pelas interrupções, a operação de datacenters em climas quentes dificilmente é um conceito novo. Embora para ser justo com o Google, ninguém espera ver Londres experimentar o tipo de clima de verão, digamos, Texas e Arizona nos EUA; ao construir um armazém de servidores na capital do Reino Unido, os longos dias escaldantes de Austin e Phoenix provavelmente não vêm à mente. Ainda.

Quando energia, refrigeração, computação e fatores externos são levados em consideração, as interrupções resultantes de eventos climáticos extremos e similares podem ser mitigadas. Pelo que podemos dizer, é apenas uma questão de saber se o custo vale a pena, dado o risco. Por outro lado, o Google não está exatamente sem dinheiro e, além da Oracle, seus rivais não parecem sofrer durante a onda de calor do Reino Unido.

“A indústria de datacenter está bem preparada para todos esses eventos. Dito isto, não é como se a indústria de datacenters estivesse imune a qualquer evento”, acrescentou Levy.

Quando essas interrupções acontecem, analisando sua causa, identificando onde a falha aconteceu e tornando isso informações públicas podem ajudar outros a evitar um destino semelhante.

É importante entender exatamente o que deu errado e quais componentes foram impactados primeiro, disse Levy. “Esperamos que as lições aprendidas possam ser disponibilizadas publicamente. Para mim, isso será um grande ganho para todo o setor, para que todos aprendam com isso e possamos evitar esse tipo de evento.”

Isso é principalmente o que o Google se comprometeu a fazer fazer na sequência da interrupção. A gigante de tecnologia americana disse que investigará e desenvolverá métodos avançados para diminuir a carga térmica em seus datacenters; examinar procedimentos, ferramentas e sistemas de recuperação automatizados para melhorar os tempos de recuperação no futuro; e auditar equipamentos e padrões de sistema de refrigeração em todos os seus datacenters.

Por fim, Levy enfatiza que medidas para mitigar os impactos dessas interrupções precisam ser tomadas. Os hiperescaladores e provedores de nuvem podem, por exemplo, migrar cargas de trabalho para outros datacenters ou executar essas cargas de trabalho em várias zonas ou regiões para evitar interrupções em seus serviços.

No entanto, como disse Owen Rogers, analista do Uptime Institute O Register em uma entrevista anterior, implementar redundância em implantações em nuvem não é automático e muitas vezes requer configuração manual por parte do cliente.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo