A Amazon Web Services (AWS) enfrentou nesta semana, uma falha de operação que afetou milhares de serviços em escala global. Iniciada no dia 20, essa interrupção perdurou por cerca de 16 horas, desestabilizando plataformas como Alexa, Zoom, Snapchat, e várias outras. A concentração do problema estava na região US-EAST-1, no norte da Virgínia, um importante centro de dados para a AWS.
O incidente começou quando dificuldades no serviço DNS afetaram o DynamoDB, espalhando-se rapidamente para outros componentes interligados. As consequências não foram apenas técnicas; a falha teve impacto econômico e logístico significativo, paralisando serviços cruciais de centenas de empresas e impactando o dia a dia de milhões de usuários globalmente.
A falha inicial manifestou-se como um problema de DNS no DynamoDB, afetando subsequentes serviços dependentes como IAM e DynamoDB Global Tables. O subsistema do EC2, essencial para lançar novas instâncias virtuais, foi comprometido, resultando em erros que se propagaram como um efeito em cascata, afetando a funcionalidade de serviços associados como Lambda e CloudWatch.
Medidas de mitigação foram implementadas para limitar instâncias EC2, ajustes em funções Lambda e controle sobre o processamento de filas SQS, na tentativa de estabilizar os sistemas. Apesar da complexidade dos erros, a recuperação de serviços foi observada de maneira gradual até a noite, quando se anunciou a normalização.
Quais serviços foram afetados pela interrupção do AWS?
O impacto da interrupção foi extenso, atingindo abundantemente serviços populares. No Brasil, fintechs e plataformas de e-commerce relataram interrupções significativas, afetando transações financeiras e a operação de plataformas digitais. Nos Estados Unidos, a interrupção atingiu aplicativos como Prime Video, Fortnite, e vários outros.
A magnitude do evento destacou a dependência de um grande número de empresas em relação à infraestrutura concentrada da AWS. Aproximadamente um terço da internet opera sob a AWS, o que amplificou o efeito dominó causado por falhas em seus data centers.
ASW: que lições podemos tirar dessas instabilidades ?
Este episódio ressaltou uma verdade crítica: a dependência de infraestruturas centralizadas torna os sistemas globais vulneráveis a interrupções de larga escala. A resiliência e a redundância na arquitetura de nuvem são necessárias e urgentes, especialmente à medida que a digitalização aumenta e serviços essenciais incorporam processos baseados em inteligência artificial e armazenamento em nuvem.
Falhas dessa magnitude abalam a percepção de confiabilidade, especialmente em setores críticos, como finanças, saúde e governo. Embora a AWS continue sendo um player robusto, o domínio absoluto do passado já não existe: recentemente, a Oracle teve crescimento relevante de participação de mercado. Soma-se a isso a intensa concorrência da Microsoft Azure e Google Cloud. Dessa forma, eventos como este podem, sim, acelerar o processo de diminuição da fatia de mercado da AWS, levando empresas a reconsiderarem estratégias para mitigar riscos de dependência excessiva.
Além disso, a prática usual da AWS de oferecer créditos em serviços dificilmente cobre as perdas diretas de faturamento em segmentos que operam 24/7, como o financeiro e o de saúde. Os contratos padrão celebrados com a AWS incluem cláusulas de limitação de responsabilidade, geralmente restringindo compensações a créditos em serviços.
No entanto, conforme observa o advogado João Azevedo, especialista em Tecnologia, LGPD e Direito Civil, sócio do escritório Moraes Pitombo: “A depender da formalização contratual, do conteúdo específico da cláusula de limitação de responsabilidade ou do destino final dos serviços prestados, essas limitações podem ser juridicamente questionadas, especialmente quando o impacto atinge áreas essenciais ou causa perdas substanciais acima do razoável.”
Casos como o da AWS e de outros incidentes passados fazem soar o alarme para a necessidade de medidas preventivas robustas e planos de contingência eficientes para minimizar riscos de falhas catastróficas.
O que esperar do futuro da infraestrutura de nuvem?
Com demandas crescentes por serviços de nuvem, espera-se inovação contínua para garantir a estabilidade e a segurança das operações. Empresas podem buscar diversificação de provedores de serviços de nuvem para evitar centralizações perigosas que podem resultar em apagões massivos. Estratégias alternativas, como armazenamento distribuído e soluções híbridas, podem se tornar mais prevalentes para mitigar riscos e promover uma robustez estrutural.
A AWS declarou estar trabalhando em melhorias para mitigar riscos futuros. A vigilância contínua e o investimento em tecnologias resilientes são cruciais para suprir a confiança no uso de tecnologias de nuvem como pilares essenciais de operações globais.