世界最大級のストリーミングサービスを展開するNetflixが、自社のAWS(Amazon Web Services)利用に関連するコストの正確な把握と管理に苦心していることが明らかになった。同社が公開した技術ブログにて、クラウドインフラストラクチャの効率性測定に関する取り組みについて詳述している。
確実なコスト把握への長い道のり
Netflixの上級アナリティクスエンジニアのJennifer H氏とData担当のPallavi Phadnis氏が公開したブログ投稿は、世界最大級の動画ストリーミングサービスが直面する予想外の課題を明らかにした。同社はAWSの最も影響力のある顧客として知られているが、そのクラウドリソースの使用状況とコストの完全な把握には依然として苦心している状況が浮き彫りとなった。
この課題に対処するため、同社のPlatform DSE(Data Science Engineering)チームは二層構造のソリューションを開発した。その基盤となるのが、Foundational Platform Data(FPD)と呼ばれるシステムだ。FPDは全てのプラットフォームデータを一元化し、一貫性のあるデータモデルと標準化されたデータ処理手法を提供する。具体的には、Apache Sparkなどのアプリケーションから、ジョブに割り当てられたコアの使用時間やデータの読み取り量といった詳細な使用状況データを収集している。
さらにその上層には、Cloud Efficiency Analytics(CEA)と呼ばれる分析レイヤーが構築されている。CEAはFPDから供給される在庫データ、所有権情報、使用状況データを取り込み、ビジネスロジックを適用することで、様々な粒度でのコストと所有権の帰属を算出する。この仕組みにより、各エンジニアリングチームは自身のリソース使用状況とそれに関連するコストを詳細に把握できるようになった。
しかし興味深いことに、これらの高度なツールを実装しているにもかかわらず、Netflixは「来年までにほぼ完全なコスト把握のカバレッジを目指している」と述べている。この表明は、現時点では同社が自社のクラウド支出を完全には可視化できていないことを意味する。さらに同社は、将来的に予測分析と機械学習を活用して、使用量の最適化とコストの異常検知を行う計画も明らかにした。
複雑性がもたらす課題
Netflixが直面しているクラウドコスト管理の複雑性は、同社のビジネスインフラストラクチャの広範な範囲とプラットフォーム固有の特徴に深く根ざしている。Platform DSEチームが明らかにした課題は、現代のクラウドネイティブ企業が直面する構造的な問題を鮮明に浮き彫りにしている。
最も根本的な課題は、サービスの所有権構造の複雑さにある。単一のクラウドサービスが複数のチームによって共有されるケースが一般的となっており、コストの適切な配分が極めて困難になっている。例えば、あるマイクロサービスが複数のチームによって利用される場合、そのリソース使用量とコストを各チームに正確に按分する必要がある。Jennifer H氏とPallavi Phadnis氏によれば、この問題に対処するため、Netflixはコスト計算において単一所有者への解決や、マルチテナント資産の場合のコスト分配といった複雑な処理を実施している。
さらに、各プラットフォームには固有のコスト計算方式が存在する。これは単なる技術的な違いではなく、ビジネスロジックの違いも反映している。例えば、データ処理プラットフォームではCPU時間とメモリ使用量が主要なコスト要因となる一方、ストリーミングプラットフォームでは帯域幅とストレージが重要なコスト要因となる。この多様性は、統一的なコスト管理フレームワークの構築を著しく困難にしている。
インフラデータの規模の問題も見過ごすことはできない。Netflixの規模では、日々膨大な量のメトリクスデータが生成される。このデータ量は、単に保存や処理の課題を引き起こすだけでなく、意味のある分析を行う上での本質的な困難をもたらしている。アップストリームの遅延は、リアルタイムのコスト把握を困難にし、データの完全性と正確性の維持を複雑化させている。
特筆すべきは、Netflixが採用している「人間よりもプロセスを重視する」という方針が、この複雑性をさらに増大させている点である。エンジニアリングチームには、組織の他の部門向けにカスタムSaaSソリューションを構築する自由が与えられている。この柔軟性は革新を促進し開発速度を向上させる一方で、使用パターンの理解とコストの帰属において新たな課題を生み出している。
これらの課題に対して、Platform DSEチームは、FPDによる明確な在庫、所有権、使用状況データの提供と、分析レイヤーでの正確な帰属付けを通じて解決を図っている。しかし、この取り組みは継続的な改善を必要とする進行中のプロジェクトであり、完全な解決にはまだ時間を要する状況だ。
Sources
- Netflix (Medimu): Cloud Efficiency at Netflix
- via The Register: Even Netflix struggles to identify and understand the cost of its AWS estate
コメント