.
Os técnicos da Microsoft estão tentando recuperar nós de armazenamento para um “pequeno” número de clientes após um “problema de energia” em 20 de outubro que desencadeou interrupções no serviço Azure e arruinou o café da manhã para aqueles que queriam usar máquinas virtuais hospedadas ou SQL DB.
A degradação começou às 07h31 UTC de sexta-feira, quando a Microsoft detectou o problema de energia não especificado, que afetou a infraestrutura em uma zona de disponibilidade na região da Europa Ocidental. Como tal, as empresas que utilizam VMs, armazenamento, serviço de aplicações ou Cosmos e SQL DB sofreram interrupções.
Então, o que causou essa sessão de inatividade não planejada? A Microsoft afirma em um relatório de incidente sobre seu Página de histórico de status do Azure: “Devido a uma perturbação da rede elétrica upstream, mudamos para a energia do gerador para uma seção de um datacenter aproximadamente às 07h31 UTC. Um subconjunto dos geradores que suportam essa seção não conseguiu assumir o controle conforme esperado durante a mudança da energia da rede elétrica, resultando no impacto.”
Os engenheiros conseguiram restaurar a energia novamente por volta das 08:00 UTC e a infraestrutura afetada começou a ficar online novamente. Quando a rede e o encanamento de armazenamento foram recuperados, as unidades de escala de computação foram colocadas em serviço e, para a “grande maioria”, os serviços do Azure ficaram acessíveis novamente a partir das 09h15 UTC.
No entanto, nem todos estavam funcionando perfeitamente, admitiu a Microsoft.
“Uma pequena quantidade de nós de armazenamento precisa ser recuperada manualmente, levando a atrasos na recuperação de alguns serviços e clientes. Estamos trabalhando para recuperar esses nós e continuaremos a nos comunicar com esses clientes afetados diretamente por meio da lâmina Service Health no Portal do Azure .”
Pedimos à Microsoft uma atualização sobre quando esses apostadores podem esperar a retomada do serviço normal.
A Microsoft relatou pela última vez tempo de inatividade não programado do Azure SQL em meados de setembro. Foi descartado na costa leste dos EUA após uma falha de energia na rede. O problema não foi mitigado por mais de meio dia. Felizmente era sábado, então apenas os trabalhadores obstinados foram afetados.
Uma interrupção de negócios muito pior ocorreu final de agosto quando toda a região de nuvem do Leste da Austrália faliu, com a Microsoft admitindo que número insuficiente de funcionários no local foi, em parte, o culpado e a automação não ajudou.
A relatório do Uptime Institute em março descobriram que a taxa de interrupções na infraestrutura diminuiu nos últimos anos, mas ainda podem ser bastante caras quando acontecem. Afirmava: “Décadas de inovação, investimento e melhor gestão significam que, em geral, os sistemas críticos de TI, redes e centros de dados são muito mais fiáveis do que eram”.
Descobriu-se que dois terços dos apagões custam agora, em média, mais de 100 mil dólares. ®
.