O gigante da mídia social diz que a restauração de serviços foi retardada por medidas tomadas para proteger os sistemas
Um simples erro técnico causou uma interrupção global na segunda-feira que deixou mais de 2,9 bilhões de usuários de internet sem acesso ao Facebook, Instagram, WhatsApp e outras ferramentas.
A interrupção de cerca de seis horas, que foi a maior da história da empresa, com base no número de usuários afetados, surgiu quando o Facebook Inc. FB2,06% estava tentando fazer a manutenção de rotina relacionada ao modo como os dados da Internet são roteados de um lado para o outro através de seus sistemas de rede, de acordo com um post do blog da empresa na terça-feira.
Procurando obter uma leitura da capacidade de rede do Facebook, os engenheiros emitiram um comando de rede que inadvertidamente retirou todos os data centers do Facebook da rede da empresa. Isso levou a uma cascata de falhas que retirou todas as propriedades do Facebook da internet.
No final das contas, os engenheiros do Facebook – uma equipe de pessoas que construíram uma das redes mais sofisticadas do mundo – tiveram que usar tecnologia pré-internet para resolver o problema. Eles tiveram que dirigir até os data centers e reiniciar os sistemas lá, disse a empresa.
A interrupção foi “causada não por atividade maliciosa, mas um erro de nossa própria autoria”, escreveu Santosh Janardhan, vice-presidente de infraestrutura do Facebook, em uma postagem do blog.
A interrupção teve um efeito cascata generalizado e global . Cortou a comunicação essencial em algumas áreas do mundo, derrubou o comércio eletrônico em alguns países, atrapalhou alguns pequenos negócios e levou outros a enxergar uma oportunidade de marketing. Em alguns setores, foi motivo de reflexão sobre até que ponto o Facebook e suas plataformas estão integrados à conectividade global.
Gigantes da Internet como o Facebook despejaram bilhões de dólares em seus enormes centros de dados globais nas últimas décadas, projetando seus próprios equipamentos de rede e o software que os alimenta.
Isso permite que essas empresas operem com velocidade e eficiência incomparáveis, mas também cria vulnerabilidade. A escala e a complexidade necessárias para operar e manter tal rede, e até que ponto sua infraestrutura é gerenciada e controlada por uma empresa, podem levar a circunstâncias em que pequenos erros podem ter um impacto descomunal, dizem os especialistas em rede.
“Esta é uma empresa com recursos infinitos e algumas das pessoas mais talentosas”, disse Doug Madory, diretor de análise de internet da empresa de monitoramento de rede Kentik. Ele disse que o Facebook pode não ter aplicado escrutínio suficiente às suas próprias soluções e processos de backup.
Uma pergunta-chave que o Facebook ainda não respondeu é por que a rede de backup da empresa, chamada de rede fora de banda, não funcionou na segunda-feira. Essa rede foi projetada para ser separada do resto do Facebook e deveria fornecer aos engenheiros uma maneira de consertar sistemas remotamente dentro de minutos quando eles parassem.
Em sua postagem no blog, Janardhan do Facebook disse que a rede fora de banda não funcionou ontem, mas não explicou por quê.
Em vez disso, com os engenheiros incapazes de redefinir suas engrenagens mal configuradas, ocorreu uma série de falhas em cascata.