technology

A Microsoft atribui a interrupção à pequena equipe e às falhas de automação

.

A análise preliminar da Microsoft de um incidente que destruiu a região de nuvem Leste da Austrália na semana passada – e que parece também ter causado problemas para a Oracle – atribui o incidente em parte ao número insuficiente de funcionários no local, retardando os esforços de recuperação.

O colosso do software culpou o incidente em “uma queda de energia da concessionária [that] desligou um subconjunto de unidades de resfriamento off-line em um datacenter, dentro de uma das zonas de disponibilidade.”

A Microsoft é conhecida por operar algumas infraestruturas de nuvem em partes de Sydney, na Austrália, que sofreram cortes de energia após uma tempestade elétrica na semana passada. A explicação da “queda de poder” é, portanto, consistente com acontecimentos mais amplos.

O documento de análise explica que os dois data halls impactados pelo afundamento tinham sete chillers – cinco em operação e dois em standby. Assim que ocorreu a queda, a equipe da Microsoft executou Procedimentos Operacionais de Emergência (EOPs) para colocá-los novamente online. Mas isso não funcionou “porque as bombas correspondentes não receberam o sinal de funcionamento dos chillers”.

Não é isso que deveria acontecer. A Microsoft está conversando com seus fornecedores sobre o motivo disso.

Os chillers de backup não faziam jus ao seu nome.

“Tínhamos dois chillers em espera que tentaram reiniciar automaticamente – um conseguiu reiniciar e voltou a ficar online, o outro reiniciou, mas foi desligado novamente em poucos minutos”, afirma o relatório da Microsoft.

Com apenas um chiller funcionando em data halls que precisam de cinco, “as cargas térmicas tiveram que ser reduzidas com o desligamento dos servidores”.

Foi quando pedaços do Azure e de outros serviços em nuvem da Microsoft começaram a evaporar.

O relatório do colosso de software oferece um cronograma muito detalhado de eventos que mostra como sua equipe no local chegou ao telhado do datacenter para inspecionar os chillers exatamente uma hora após a queda de energia, e que o fabricante dos chillers tinha botas no chão duas horas e 39 minutos após o início do incidente.

Mas o documento também observa que a Microsoft tinha apenas três funcionários no local na noite da interrupção e admite que eram muito poucos.

“Devido ao tamanho do campus do datacenter, a equipe da equipe à noite era insuficiente para reiniciar os chillers em tempo hábil”, afirma o relatório. “Aumentámos temporariamente o tamanho da equipa de três para sete, até que as questões subjacentes sejam melhor compreendidas e as mitigações apropriadas possam ser implementadas”.

A análise também sugere que os procedimentos de emergência preparados não incluíam disposições para um incidente deste tipo.

“Avançando, estamos avaliando maneiras de garantir que os perfis de carga dos vários subconjuntos de chillers possam ser priorizados para que as reinicializações dos chillers sejam realizadas primeiro para os perfis de carga mais altos”, afirma o documento.

Reinicializações manuais

A Microsoft também teve dificuldade em entender por que sua infraestrutura de armazenamento não voltou a ficar online.

O hardware de armazenamento danificado pelas temperaturas do data hall “exigiu extensa solução de problemas”, mas as ferramentas de diagnóstico da Microsoft não conseguiram encontrar dados relevantes porque os servidores de armazenamento estavam inoperantes.

“Como resultado, nossa equipe de datacenter local precisou remover componentes manualmente e recolocá-los um por um para identificar quais componentes específicos estavam impedindo a inicialização de cada nó”, afirma o relatório.

Alguns kits precisaram ser substituídos, enquanto alguns componentes precisaram ser instalados em servidores diferentes.

A Microsoft também admitiu que “nossa automação aprovava incorretamente solicitações obsoletas e marcava alguns nós íntegros como não íntegros, o que retardava os esforços de recuperação de armazenamento”.

E isso é apenas o que a gigante da tecnologia conseguiu descobrir em sua análise imediata pós-incidente, compilada três dias após o incidente. The Beast of Redmond publica avaliações completas das interrupções dentro de quatorze dias, e Strong The One aguarda esse documento com interesse – assim como, imaginamos, farão os clientes do Azure. ®

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo