.
Uma estranha tempestade de verão na Holanda está sendo responsabilizada por causar problemas de rede na região da Europa Ocidental do Azure da Microsoft na semana passada, de acordo com uma análise preliminar pós-incidente da empresa.
O evento climático, chamado Storm Poly, foi descrito como a tempestade de verão mais forte já registrada no país. Ele atingiu a Holanda na última quarta-feira, 5 de julho, com ventos de até 146 quilômetros (90 milhas) por hora, segundo relatos, causando pelo menos uma morte e deixando um rastro de danos.
Esse dano incluiu uma conexão de fibra ótica transportando tráfego entre os datacenters em nuvem da Microsoft, levando os clientes a experimentar quedas de pacotes, tempos limite e/ou aumento da latência entre aproximadamente 07:22 UTC e 16:00 UTC em 5 de julho.
De acordo com revisão preliminar pós-incidente, a região da Europa Ocidental do Azure é equipada com quatro caminhos de fibra independentes para fluxos de tráfego entre datacenters. Com um cortado, um quarto da largura de banda da rede entre dois campi de datacenters da Europa Ocidental ficou indisponível.
Isso pode não ter sido um problema muito sério, mas os links já estavam sendo executados com uma utilização maior do que o objetivo do projeto, relata a revisão. Aparentemente, já havia um projeto de atualização de capacidade em andamento para resolver isso quando o incidente ocorreu, afirma a Microsoft.
Como resultado do corte da fibra, o congestionamento nos links restantes aumentou a ponto de começar a ocorrer quedas de pacotes. Isso parece ter afetado o tráfego de rede entre as Zonas de Disponibilidade na própria região da Europa Ocidental, em vez do tráfego de e para a região, resultando em desempenho degradado para os serviços do Azure que dependem de outros serviços locais na região.
A Microsoft afirma que seus engenheiros de plantão começaram a investigar imediatamente, e um esforço corretivo concentrou-se em reduzir o tráfego na região e equilibrá-lo nos links restantes, enquanto o trabalho para reparar o link afetado com seu provedor de fibra escura na Holanda começou em paralelo. .
Com o estrangulamento e a migração do tráfego de serviços internos para longe da região em vigor, as quedas de pacotes diminuíram significativamente por volta das 14:52 UTC, afirma a Microsoft, de modo que às 15:30 UTC muitos serviços internos e externos mostraram sinais de recuperação e às 16:00 UTC :00 As quedas de pacotes UTC retornaram aos níveis pré-incidente.
Os reparos físicos reais foram prejudicados por condições de trabalho perigosas devido à tempestade em andamento, mas a restauração completa foi confirmada às 20h50 UTC, de acordo com a Microsoft, que declarou o incidente mitigado às 22h45 UTC.
Esta informação é da revisão preliminar que a Microsoft disse que pretende produzir dentro de 72 horas após um incidente. Uma versão final será publicada assim que a revisão interna for concluída (geralmente em 14 dias) com detalhes adicionais.
Em resposta ao incidente, a gigante de Redmond disse que colocou capacidade adicional online em 24 horas e está trabalhando para aumentar ainda mais a capacidade na região.
Os clientes afetados pelo incidente podem fornecer feedback à Microsoft sobre como lidar com o incidente por meio de um enquete.
Um mês antes, o Azure foi atingido por outro interrupção no brasil quando um simples erro de digitação em um trabalho de rotina levou à exclusão de instâncias inteiras do Azure SQL Server em vez de instantâneos de banco de dados antigos. ®
.