今週末、ソフトウェアの更新が失敗したことによって引き起こされた世界規模のITシステム障害は、現代のIT基盤が相互に接続され、しばしば脆弱な性質を持つことを浮き彫りにした。これは、単一の障害が広範囲に影響を及ぼし得ることを示している。
この障害は、主に大規模組織で使用されている一般的なサイバーセキュリティツールであるCrowdstrike Falconに自動的に適用された単一の更新に関連していた。これにより、世界中のMicrosoft Windowsコンピューターがクラッシュした。
CrowdStrikeはその後、自社側で問題を修正した。多くの組織が現在業務を再開できているものの、影響を受けたすべてのシステムをIT部門が完全に修復するにはある程度の時間がかかる。その作業の一部は手動で行わなければならない。
なぜこのようなことが起こったのか?
多くの組織が同じクラウドプロバイダーやサイバーセキュリティソリューションに依存している。その結果、一種のデジタルモノカルチャーが形成されている。
この標準化により、コンピューターシステムは効率的に動作し、広範な互換性を持つことができるが、同時に問題が多くの業界や地域にまたがって連鎖的に波及する可能性もある。CrowdStrikeの例で見たように、それが世界中に波及することさえある。
現代のIT基盤は高度に相互接続され、相互依存している。一つのコンポーネントが故障すると、その故障したコンポーネントがシステムの他の部分に影響を与える連鎖反応を引き起こす可能性がある。
ソフトウェアとそれが動作するネットワークがより複雑になるにつれ、予期せぬ相互作用やバグが発生する可能性が高まる。些細な更新が意図しない結果をもたらし、ネットワーク全体に急速に広がる可能性がある。
今回見たように、監視者が防止策を講じる前に、システム全体が完全に停止する可能性がある。
Microsoftはどのように関与したのか?
Windows搭載のコンピューターが至る所で「ブルースクリーン・オブ・デス」メッセージとともにクラッシュし始めたとき、初期の報道ではこのIT障害はMicrosoftが原因だと述べていた。
実際、Microsoftは2024年7月18日木曜日の東部時間午後6時頃から、米国中央部地域でクラウドサービスの障害が発生したことを確認した。
この障害は、様々なAzureサービスを利用している一部の顧客に影響を与えた。Azureは、Microsoftの独自のクラウドサービスプラットフォームである。
Azureの障害は広範囲に影響を及ぼし、航空、小売、銀行、メディアなど複数のセクターにわたるサービスを混乱させた。これは米国だけでなく、オーストラリアやニュージーランドなどの国々にも国際的に影響を与えた。また、PowerBI、Microsoft Fabric、Teamsなど、様々なMicrosoft 365サービスにも影響を与えた。
現在判明したところによると、Azure全体の障害もCrowdStrikeの更新に起因していたことがわかった。この場合、Falconがインストールされた Windows を実行している Microsoft の仮想マシンに影響を与えていた。
この出来事から何を学べるか?
ITの卵を一つのかごに全部入れないことだ。
企業は複数のクラウド戦略を採用すべきである:IT基盤を複数のクラウドサービスプロバイダーに分散させることだ。これにより、一つのプロバイダーがダウンしても、他のプロバイダーが重要な業務を継続的にサポートできる。
企業はまた、ITシステムに冗長性を組み込むことで、業務の継続を確保できる。一つのコンポーネントがダウンしても、他のコンポーネントがその役割を担うことができる。これには、バックアップサーバー、代替データセンター、障害発生時に迅速にバックアップシステムに切り替えることができる「フェイルオーバー」メカニズムなどが含まれる。
日常的なITプロセスを自動化することで、障害の一般的な原因である人為的ミスのリスクを減らすことができる。自動化されたシステムは潜在的な問題を監視し、重大な問題につながる前に対処することもできる。
障害発生時の対応方法についてスタッフを訓練することで、困難な状況を正常な状態に戻すことができる。これには、誰に連絡するか、どのような手順を踏むか、代替のワークフローをどのように使用するかを知ることが含まれる。
IT障害はどれほど深刻になり得るか?
インターネットの基盤が分散化され、非中央集権的な性質を持つため、世界中のインターネット全体がダウンする可能性は非常に低い。インターネットには複数の冗長経路とシステムがある。一部が故障しても、トラフィックは他のネットワークを通じて迂回させることができる。
しかし、CrowdStrikeの障害よりもさらに大規模で広範囲に及ぶ混乱が発生する可能性は存在する。
可能性のある原因のカタログは、災害映画のシナリオのように読める。1859年のキャリントン・イベントに似た強烈な太陽フレアは、インターネットのバックボーンである衛星、送電網、海底ケーブルに広範囲にわたる損害を与える可能性がある。このような事象は、大陸にまたがり数ヶ月間続くインターネット障害につながる可能性がある。
グローバルインターネットは海底光ファイバーケーブルのネットワークに大きく依存している。主要なケーブルの複数が同時に損傷を受けた場合 – 自然災害、地震、事故、あるいは意図的な妨害によるものであれ – 国際的なインターネットトラフィックに大きな混乱をもたらす可能性がある。
ルートDNSサーバーや主要なインターネット交換ポイントなどの重要なインターネットインフラを標的とした、高度で協調的なサイバー攻撃も大規模な障害を引き起こす可能性がある。
完全なインターネットの大災害が起こる可能性は非常に低いが、我々のデジタル世界の相互接続性は、大規模な障害が広範囲に影響を及ぼすことを意味する。なぜなら、それは我々が依存するようになったオンラインサービスを混乱させるからである。
グローバル通信インフラの回復力を確保するためには、継続的な適応と準備が極めて重要である。
コメント