Início Tecnologia A interrupção massiva do Azure acabou, mas os problemas persistem – eis...

A interrupção massiva do Azure acabou, mas os problemas persistem – eis o que aconteceu

14
0

aliança de imagens/Contribuidor/aliança de imagens by way of Getty Photos

Siga ZDNET: Adicione-nos como fonte preferencial no Google.


Principais conclusões da ZDNET

  • O Microsoft Azure sofreu uma interrupção world em 29 de outubro.
  • Os serviços voltados ao cliente da Microsoft foram afetados.
  • A recuperação ocorreu mais tarde naquele mesmo dia, mas alguns problemas persistem.

Na semana passada, o Amazon Internet Providers (AWS) caiu e muitos de nós ficamos infelizes. Esta semana, foi a vez do Microsoft Azure cair e explodir e, mais uma vez, estamos muito insatisfeitos com isso.

A Microsoft disse que a última interrupção do Azure começou aproximadamente ao meio-dia ET de 29 de outubro. Detector de quedaque se baseia em relatórios de usuários, mostrou os problemas surgidos anteriormente, por volta das 11h40

Além disso: a enorme interrupção da AWS que quebrou metade da Web finalmente acabou – aqui está o que aconteceu

Mil Olhosa empresa de segurança de rede Cisco, “tempos limite de HTTP detectadoscódigos de erro de servidor e elevada perda de pacotes na borda da rede da Microsoft, impedindo conexões bem-sucedidas aos serviços afetados e frequentemente atingindo o tempo limite ou retornando erros relacionados ao serviço.”

A última atualização de standing

Às 17h30 horário do leste dos EUA, 29 de outubro, a Microsoft relatou: “Iniciamos a implantação de nossa configuração ‘última boa conhecida’, que agora foi concluída com êxito. No momento, estamos recuperando nós e redirecionando o tráfego através de nós íntegros.”

Além disso: ninguém mais paga as demandas de ransomware – então os invasores têm um novo objetivo

No entanto, a Microsoft continuou: “À medida que a recuperação avança, algumas solicitações ainda podem chegar a nós não íntegros, resultando em falhas intermitentes ou disponibilidade reduzida até que mais nós sejam totalmente restaurados. Este esforço de recuperação envolve recarregar configurações e reequilibrar o tráfego em um grande quantity de nós para restaurar a escala operacional complete. O processo é gradual por design, garantindo estabilidade e evitando sobrecarga à medida que os serviços dependentes se recuperam. Esperamos melhoria contínua nas regiões afetadas. Isso significa que esperamos que a recuperação aconteça até 23h20 UTC de 29 de outubro de 2025.”

São 19h30 horário do leste dos EUA.

Na realidade, demorou um pouco mais. O Azure informou que voltou ao regular às 20h05 de ontem. Mesmo assim, a Microsoft alertou que a configuração do cliente muda para Porta frontal do Azure (AFD) permaneceria temporariamente bloqueado. A Microsoft prometeu que notificaria os clientes assim que o bloqueio fosse suspenso. Além disso, embora “as taxas de erro e a latência tenham voltado aos níveis anteriores ao incidente, um pequeno número de clientes ainda pode estar enfrentando problemas e ainda estamos trabalhando para mitigar essa longa cauda”.

Se você ainda está tendo problemas hoje, fale com Azure. Se as coisas estiverem realmente complicadas, a Microsoft recomenda que você considere a implementação de estratégias de failover existentes usando Gerenciador de Tráfego do Azure para redirecionar o tráfego do Azure Entrance Door para seus servidores de origem como uma medida provisória.” Isso está longe de ser uma solução fácil. Se sua equipe não tiver experiência com o roteamento de tráfego do Azure, eu cerro os dentes e espero que o Azure volte completamente on-line.

Ao contrário da falha da AWS, que – embora enorme em seus danos – foi limitada a uma única região (AWS East), de acordo com o Estado Azure página a partir das 13h30 horário do leste dos EUA, todas as regiões do Azure estavam inativas.

Rastreando a implantação defeituosa

Ainda não temos um relatório last sobre o que aconteceu. No início, a Microsoft disse apenas: “Aproximadamente às 16h UTC, começamos a ter problemas com o Azure Entrance Door (AFD), resultando na perda de disponibilidade de alguns serviços. Suspeitamos que uma alteração inadvertida na configuração foi o evento desencadeador desse problema. Estamos realizando duas ações simultâneas em que bloqueamos todas as alterações nos serviços AFD e, ao mesmo tempo, revertendo para nosso último estado válido conhecido.”

O relatório inicial da Microsoft sobre o incidente dizia: “Um ataque inadvertido a mudança na configuração do locatário no AFD desencadeou uma interrupção generalizada do serviço afetando os serviços da Microsoft e os aplicativos de clientes que dependem do AFD para entrega de conteúdo world.” A mudança causou um estado de configuração inválido, que, por sua vez, resultou em um número significativo de nós do AFD falhando no carregamento adequado, incluindo aumento de latências, tempos limite e erros de conexão para serviços downstream. Em outras palavras, foi uma bagunça completa.

Além disso: Melhores serviços VPN 2025: nossas principais opções em velocidade e segurança

À medida que os nós não íntegros foram eliminados do pool world, a distribuição do tráfego entre os nós íntegros tornou-se desequilibrada, amplificando o impacto e causando disponibilidade intermitente mesmo em regiões parcialmente saudáveis. A Microsoft imediatamente “bloqueou todas as alterações adicionais de configuração para evitar a propagação adicional do estado de falha e começou a implantar uma configuração ‘última boa conhecida’ em toda a frota world. A recuperação exigiu o recarregamento de configurações em um grande número de nós e o reequilíbrio gradual do tráfego para evitar condições de sobrecarga à medida que os nós retornavam ao serviço. Essa recuperação deliberada e em fases foi necessária para estabilizar o sistema enquanto restaurava a escala e garantia que o problema não voltasse.”

O problema foi atribuído a um processo de implantação de configuração de locatário defeituoso. “Nossos mecanismos de proteção, para validar e bloquear quaisquer implantações errôneas, falharam devido a um defeito de software program que permitiu que a implantação contornasse as validações de segurança. Desde então, as salvaguardas foram revisadas e controles adicionais de validação e reversão foram implementados imediatamente para evitar problemas semelhantes no futuro.”

Embora não seja mencionado neste documento, os primeiros relatórios do Azure atribuíram parte da culpa – você adivinhou! – um problema no Sistema de Nomes de Domínio (DNS). Diga comigo: quando há um problema de rede, “É sempre DNS!”

Falha de DNS da Microsoft

sjvn

Quais websites e serviços foram afetados?

Pessoas comuns também sentiram dor. Serviços populares como Microsoft 365 e Microsoft Intune para usuários empresariais e Xbox Reside e Minecraft para pessoas que desejam apenas se divertir também caíram. Outros relataram que Os logins da Microsoft também estavam ficando lentos ou falhando totalmente.

Os seguintes serviços eram afetado:

  • Microsoft 365
  • Microsoft Azure
  • Copiloto da Microsoft
  • Microsoft Entrada
  • Loja da Microsoft
  • Equipes Microsoft
  • Minecraft
  • Xbox

Foi um dia ruim se você confiasse na Microsoft.

Alaska Airlines sofreu interrupções aos seus sistemas internos críticos, incluindo seu web site e infraestrutura operacional. A Vodafone no Reino Unido e o Aeroporto de Heathrow também foram afetados pela interrupção.

Nos bastidores, a Microsoft agora relata que os seguintes serviços do Azure foram afetados: App Service, Azure Energetic Listing B2C, Azure Communication Providers, Azure Databricks, Azure Healthcare APIs, Azure Maps, Azure Portal, Azure SQL Database, Container Registry, Media Providers, Microsoft Defender Exterior Assault Floor Administration, Microsoft Entra ID, Microsoft Purview, Microsoft Sentinel, Video Indexer e Digital Desktop.

Mais cedo, Ookla O analista de telecomunicações Luke Kehoe disse: “O Microsoft Azure desativou muitos serviços em todo o mundo, com um amplo raio de explosão em companhias aéreas, bancos e agências governamentais. É o segundo evento desse tipo neste mês, destacando os riscos sistêmicos de concentração e pontos únicos de falha lógica, independentemente de quão fisicamente fortalecida a infraestrutura esteja”.

Além disso: o menu Iniciar renovado do Home windows 11 da Microsoft está sendo lançado – mas continuarei com minha alternativa favorita

Ele tem razão. Dependemos demais da AWS, do Azure e de outros serviços em nuvem, que, quando as coisas ficam difíceis, acabam sendo pontos únicos de falha.

Seja como for, no seu último relatório trimestral, divulgado após o sino do mesmo dia, a Microsoft informou que superou as estimativas de Wall Avenue e que A receita do Azure cresceu cerca de 40%. Ainda assim, com este fracasso contínuo e a Microsoft admitindo que não consegue acompanhar as exigências da IA ​​e da nuvem, as ações da Microsoft caíram ainda mais nas negociações pós-mercado.

Receba as principais notícias da manhã em sua caixa de entrada todos os dias com nosso Boletim informativo da tecnologia hoje.



avots

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui