「クラウド障害」の意味が変わった
繰り返すが、クラウドサービスの障害はこれまでも起きてきた。しかしその原因は、設定ミスやソフトウェアのバグ、自然災害など、いずれも「事故」だった。その場合の復旧手順は確立されており、数時間から数日で元に戻るのが通例だ。
今回は質が違う。国際関係上の緊張を背景に、飛来物がデータセンターを直撃し、消防当局の判断で電源が落とされた。AWSは「施設・冷却・電力システムの修復と現地当局との調整、作業員の安全確認を含め、復旧には少なくとも1日を要する」と説明している。
クラウドには「アベイラビリティゾーン(AZ)」という概念がある。同じ地域(リージョン)の中に複数のデータセンターを分散させ、1つが落ちても別が補う構造になっている、とイメージすると分かりやすいだろう。
このAZという単位で説明すると、障害は当初、mec1-az2(中東・UAE リージョンのAZ2)に限定されていたが、その後mec1-az3にも波及し、2つのアベイラビリティゾーンが大きな影響を受けるという事態に陥った。その結果、データの送受信に大きな障害が発生したのである。
「クラウド」という名称は、あたかもデータが空の上に浮かんでいるかのような印象を与えるが、実際には特定の国の、特定の土地に建つ建物の中にサーバーがある。その建物が紛争地域の近くにあれば、止まることもある。この当たり前の事実を、今回の一件は改めて突きつけた。AIを動かしているインフラは、電力や水道と同じ「重要インフラ」になったのだ。
影響は一部のテクノロジー企業にとどまらなかった。AWSを利用する複数の金融機関が、障害の直接的な影響を受けたことが確認されている。