2021年2月19日23時50分頃に発生したAWS障害解析及び対策


この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので十分ご注意ください。

第三シスの趙(@realdapeng)です。
日本時間2021年2月19日23:50頃より、AWS東京リージョン(AP-NORTHEAST-1)でAWS障害が発生しました。

本日はこの障害の原因分析を行います。

発生日

JST 2021-02-19 23:50 頃

障害リージョン

  • ap-northeast-1(東京リージョン)
  • 「アベイラビリティゾーンID」が「apne1-az1」となっているサブネット

障害サービス

  • EC2
  • EBS

障害内容

東京近郊にあるAWSのデータセンターの一つ(apne1-az1)、サーバの冷却システムへの電力供給が正しく行われず、サーバルームの1区画の温度が上昇した結果、EC2の一部インスタンスの電源が落ちたという。これに伴い、EC2で利用できるストレージ「EBSボリューム」の一部でもパフォーマンスの低下が発生したとしている。

復旧までの時間

約5時間

影響した利用者

  • 気象庁の公式サイトが一時接続できない状態
  • Yostar(東京都千代田区)のスマホ向けオンラインゲーム「アズールレーン」などが利用しづらい状態

気象庁の公式サイトの例として対策分析

現在の設計予想(シングルAZ設計)

file

今回はシングルAZ「apne1-az1」の障害でしまので、単独のAZを使って運用されていたシステムは停止の可能性が大きい。

対策設計(複数のAZ(MultiAZ)設計)

file

複数のAZ(MultiAZ)で運用設定すれば、今回の障害を免れます。
このように複数のAZに、リソースを分散させる、一つのAZに障害が発生しても、他のAZに置いたサーバーがそのバックアップの役目を果たして、無停止あるいは早急な復旧ができるような、リスクを分散した運用方法が重要となります。

障害に関する情報を集める

Twitterの障害アカウント

非公式ですがTwitterには東京リージョンのみのAWS障害情報をツイートしているアカウント@awsstatusjpがあります。AWSの東京リージョン及びリージョンなしサービスのステータスに更新があった際にツイートします。全リージョン対象のアカウントは@awsstatusjp_allです。

Dashboard表示

コンソールにログインしてDashboardを見る時には、右上に表示される「アラート」欄に何かサービス運用や障害に関する情報が表示されていないか注意しましょう。AWSからEC2やEBSの再起動を求められる場合や、ボリューム差し替えの要請などもこの「アラート」に表示されます。

AWS Service Health Dashboard

AWS Service Health Dashboardを見るとAWSにおける各サービスの稼働状況がわかります。
https://status.aws.amazon.com/

最後に

単独のAZを使って被害されたケースが多いですね。
これはダウンしても構わないの設計行為でしたら、問題ないですが、
「気象庁の公式サイト」はダウンでしたら、国民に対して大変になりますね。
これは故意か過失か、分かりません。。

Last modified: 2024-02-05

Author