CrowdStrike社が引き起こした史上最大規模のシステム障害の原因が明らかになった。先週Crowdstrikeのセキュリティソフトウェアの不具合により、世界中で850万台のWindowsマシンがクラッシュする事態が発生したが、同社によれば、その原因は欠陥のあるテストソフトウェアにあったとのことだ。同社は、問題の再発を防ぐため、一連の新たな対策を約束している。
不完全な更新により、範囲外のメモリ読み取りが発生し、「回復不可能な例外」が発生
CrowdStrikeは、今回の障害の原因について詳細な調査結果を公表した。それによると、問題の根源は同社のテストソフトウェアにあったことが判明した。
CrowdStrikeのFalconプラットフォームは、「Rapid Response Content」と呼ばれる更新を定期的に配信している。これは、新たに特定された脅威に対応するためのデータを含んでいる。7月19日に配信された2つの更新のうち1つに問題があり、これがWindows機器のクラッシュを引き起こした。
通常、これらの更新は「Content Validator」と呼ばれる内部システムによって自動的にチェックされる。しかし、このシステムにバグがあり、問題のある更新を検出できずにリリースしてしまった。
更新を受け取ったFalconセンサーは、「Content Interpreter」と呼ばれる内部コンポーネントを使用してこれを実行しようとした。その結果、「out-of-bounds memory read」というエラーが発生した。これは、プログラムが許可されていないRAMの領域にアクセスしようとした際に起こるエラーである。このエラーが、影響を受けたWindowsマシンのクラッシュを引き起こした。
CrowdStrikeの調査によると、影響を受けたのは「センサーバージョン7.11以上を実行しており、2024年7月19日の04:09 UTCから05:27 UTCの間にオンラインだった」Windowsホストだった。同社は05:27 UTCに問題のある更新を取り消したため、それ以降にオンラインになったシステムや、この時間枠内に接続しなかったシステムは影響を受けなかった。
この事態は、医療機関、政府機関、航空会社など、世界中の多くの組織の業務を混乱させた。一部の企業ではまだシステムの完全な復旧ができていない状況だ。保険会社のParametrix Insuranceは、Fortune500企業だけでも54億ドルの損失が発生すると推定している。
保険ブローカーのAonは、今回の障害を2017年のNotPetyaマルウェア攻撃以来「最も重大な」サイバー保険損失事件と指摘しており、Burns & Wilcoxの専門職業賠償責任ブローカーであるDerek Kilmer氏は、The Financial Times紙に対し、10億ドル以上の保険損害を予想しているが、「もっと高くなる可能性もある」と述べている。
CrowdStrikeは今回の事態を重く受け止め、再発防止策を講じると約束している。具体的には、Rapid Response Contentの更新をより徹底的にテストし、エラー処理を改善し、段階的な展開を実施するとしている。また、Falconセンサーに新たな機能を追加し、不具合のある更新から回復できるようにする計画だ。さらに、顧客が更新のダウンロード方法やタイミングをカスタマイズできるオプションも提供する予定である。
この事件は、ソフトウェア更新プロセスの重要性と、十分なテストの必要性を再認識する機会となった。CrowdStrikeは今後、より慎重な更新プロセスを採用し、同様の事態の再発を防ぐことが求められている。
Source
コメント