バイオテクノロジー企業Metagenomiが、AWSのAI推論チップ「Inferentia 2」を活用し、NVIDIA製GPU比で最大56%ものコスト削減を達成した。 これは、CRISPR遺伝子編集技術の根幹をなす新規酵素発見プロセスでの成果である。本稿では、この技術選択の背景にあるアーキテクチャの特性、クラウドインフラの戦略的活用、そしてAIワークロードの最適化手法を、ハードウェアとソフトウェアの両面から見てみたい。
遺伝子編集のフロンティアとAIが拓く創薬の新たな地平
遺伝子編集技術、特にCRISPR(クリスパー)は、遺伝子レベルで疾患の原因に直接アプローチし、根治を目指す新しい治療モダリティとして期待されている。 カリフォルニア州に本拠を置くMetagenomi社は、この分野の有力なスタートアップであり、独自のCRISPR遺伝子編集酵素を用いた治療法の開発を進めている。
治療法の鍵を握るのは、目的の遺伝子配列を正確に切断する「酵素」の発見である。Metagenomiは、自然界の膨大な微生物ゲノムデータから有望な酵素候補を探し出し、それを基にAIを用いて最適化するアプローチを採る。 このプロセスで中心的な役割を果たすのが、「タンパク質言語モデル(PLM)」と呼ばれる生成AIだ。同社が採用する「Progen2」は、Salesforce Researchなどが開発した自己回帰型のTransformerモデルで、アミノ酸配列をテキストのように扱い、機能的に有望な新しいタンパク質(酵素)の配列を生成する能力を持つ。
しかし、このアプローチには経済的な壁が存在した。有望な酵素を発見するためには、文字通り「百万単位」の膨大な候補を生成・評価する必要がある。 この大規模なAI推論は、高性能なアクセラレータ、主にGPUを大量に稼働させる必要があり、莫大な計算コストを伴う。Metagenomiは当初、NVIDIAのL40S GPUを搭載したEC2インスタンス(g6e)を利用していたが、コストが科学的探求の足枷となり得る状況だった。
AWS Inferentia 2 vs NVIDIA L40S:アーキテクチャと性能の比較分析
Metagenomiが下したNVIDIA L40SからAWS Inferentia 2への移行という決断は、AIアクセラレータ市場における汎用GPUと特定用途向け集積回路(ASIC)のトレードオフを象徴している。この選択を理解するには、両者のアーキテクチャ設計思想の違いを掘り下げる必要がある。
アクセラレータの特性:Inferentia 2とL40Sの設計思想
| 特徴 | AWS Inferentia 2 | NVIDIA L40S |
|---|---|---|
| アーキテクチャ | 推論特化型ASIC (NeuronCore v2) | 汎用GPU (Ada Lovelace) |
| 主な用途 | AI推論 | AI推論/学習、グラフィックス、HPC |
| メモリ | 32 GB HBM2e | 48 GB GDDR6 (ECC対応) |
| メモリ帯域 | 820 GB/s | 864 GB/s |
| 理論性能 (BF16/FP16) | 190 TFLOPS | 362 TFLOPS |
| エコシステム | AWS Neuron SDK | NVIDIA CUDA、TensorRT |
AWS Inferentia 2は、その名の通りAIの「推論(Inference)」処理に特化して設計されたASICだ。学習処理の柔軟性をある程度犠牲にする代わりに、推論で多用される行列演算やデータ移動の効率を極限まで高めている。複数のNeuronCoreを搭載し、チップ間を高速に接続することで、大規模モデルの分散推論にも対応する。その設計は、特定のタスクにおける電力効率とコストパフォーマンスの最大化を明確な目標としている。
一方、NVIDIA L40Sは、Ada Lovelaceアーキテクチャを基盤とする汎用GPUであり、AIの推論・学習から、レンダリング、科学技術計算まで幅広いワークロードに対応する。NVIDIAの強みである広範なCUDAエコシステムと、TensorRTのような推論最適化ライブラリにより、高い性能と開発の柔軟性を提供する。スペックシート上の理論性能(TFLOPS)ではL40SがInferentia 2を上回るが、これが実アプリケーションのコスト効率に直結しない点が、本件の核心である。
Progen2モデルの特性とハードウェア要件のマッチング
Metagenomiが使用するProgen2は、約8億パラメータのモデルである。 これは近年の数十億~数兆パラメータを持つ大規模言語モデル(LLM)と比較すれば小規模であり、ハードウェア選定におけるボトルネックが異なる。
具体的には、48GBのVRAMを持つL40Sはもちろん、32GBのHBMを搭載するInferentia 2でも、モデルを単一のアクセラレータに収めることは容易である。 したがって、VRAM容量が選択の決定的な要因にはならない。
このワークロードで重要となるのは、以下の3点だ。
- スループット: 単位時間あたりにどれだけ多くのタンパク質配列を生成できるか。
- バッチ処理効率: 多数のプロンプト(入力配列)から並列でシーケンスを生成する能力。
- コスト効率: 上記のスループットを、1ドルあたりどれだけ高く実現できるか。
推論に特化したInferentia 2のアーキテクチャは、冗長な機能を排し、データパスを最適化しているため、特定の条件下では汎用GPUよりも高い電力効率とコスト効率を発揮するポテンシャルを持つ。Metagenomiの事例は、まさにそのポテンシャルが現実の価値に転換されたケースと言える。
AWS Neuron SDKの役割:推論パイプラインの最適化
Inferentia 2の性能を最大限に引き出す鍵は、ハードウェアと密接に連携するAWS Neuron SDKにある。GPUがCUDA/TensorRTを介してプログラムを実行するのと同様に、Inferentia 2はNeuron SDKを介して最適化されたモデルを実行する。
Metagenomiは、PyTorchで記述されたProgen2モデルをInferentia 2で実行するために「Tracing and Bucketing」という手法を用いた。 これは技術的に非常に重要なポイントである。
- Tracing(トレース): まず、PyTorchモデルの計算グラフを静的に解析し、Neuronコアで実行可能な形式にコンパイルする。これは、柔軟な動的実行を得意とするGPUとは対照的な、ASIC特有の静的最適化アプローチである。
- Bucketing(バケッティング): Progen2のような自己回帰モデルは、トークン(アミノ酸)を1つずつ生成するため、シーケンス長が動的に変化する。静的な計算グラフを好むASICでこれを効率的に扱うため、複数の固定シーケンス長(例: 64, 128, 256, 512)に対応するコンパイル済みモデル(バケット)を事前に用意する。生成時には、現在のシーケンス長に応じて最適なバケットを切り替えながら処理を進める。これにより、パディングによる無駄な計算を最小限に抑え、推論効率を最大化する。
Metagenomiは、この最適化手法がモデルの精度に悪影響を与えないかを確認するため、GPUでのネイティブ実装とInferentia 2での実装(Tracing and Bucketing適用後)で生成された配列の perplexity(モデルの予測性能指標)とシーケンス長を比較検証した。 結果として両者に有意な差は見られず、コスト削減と引き換えに科学的な妥当性が損なわれることはない、という技術的確証を得ている。
56%コスト削減のメカニズム:スポットインスタンスとバッチ処理の戦略
アーキテクチャの適合性に加え、クラウドインフラの戦略的な活用がコスト削減を決定づけた。特に重要なのが、EC2 Spot InstancesとAWS Batchの組み合わせだ。
コスト削減の主役:EC2 Spot Instancesの中断率
EC2 Spot Instancesは、AWSの余剰コンピューティング能力をオンデマンド価格よりも大幅に安価(最大70-90%割引)で利用できるサービスである。 ただし、需要が高まるとインスタンスが「中断」され、実行中の処理が停止する可能性がある。
Metagenomiのコスト分析において、決定的な差を生んだのがこの「中断率」である。
- NVIDIA L40S (g6e.xlarge) Spot Instances: 中断率 約20%
- AWS Inferentia 2 (inf2.xlarge) Spot Instances: 中断率 約5%
この差は、総コストに絶大な影響を与える。中断率が20%ということは、5回に1回のジョブが途中で失敗し、再実行のコストと時間が発生することを意味する。一方、中断率が5%であれば、そのリスクは20回に1回にまで低減する。中断が少ないことは、再試行による無駄な計算コストを直接的に削減するだけでなく、大規模な実験全体の完了時間を予測しやすくし、研究開発のサイクルを加速させる効果も持つ。Inferentia 2インスタンスの可用性が高いことは、AWSが自社製チップの供給をコントロールしやすいという垂直統合の利点を反映している可能性がある。
AWS Batchによる大規模並列処理のオーケストレーション
Metagenomiは、数百万のタンパク質生成というタスクを、AWS Batchを用いて効率的に管理・実行した。 AWSのブログで公開されたアーキテクチャは、クラウドネイティブな大規模計算のベストプラクティスを示している。
- ジョブ投入: ユーザー(研究者)が、生成したい配列の数やパラメータを指定してジョブを投入する。
- コンテナ化: Progen2とNeuron SDKを含む実行環境はDockerコンテナとしてAmazon ECR(Elastic Container Registry)に格納されている。
- 動的リソース確保: AWS Batchは、ジョブキューの要求に応じて、最適な数のEC2 Inf2 Spot Instancesを自動的にプロビジョニングする。
- ジョブ実行: 各インスタンスは、S3からモデルと入力データ(プロンプト)をダウンロードし、推論処理を実行。
- 結果保存: 生成されたタンパク質配列(FASTA形式)は再びS3にアップロードされる。
さらに、このパイプライン全体をNextflowのようなワークフロー管理ツールでオーケストレーションすることも可能であり、中断時の自動リトライや、後続の解析タスクとの連携を自動化できる。
定量的コスト分析
Metagenomiが公開したコスト比較データは、シーケンス長が長くなるほどInferentia 2のコスト優位性が顕著になることを示している。 これは、自己回帰モデルの計算量がシーケンス長に対して二次関数的に増加する特性と、Inferentia 2のアーキテクチャ及びNeuron SDKの最適化が、特に長いシーケンスのバッチ処理において効率的に機能することを示唆している。安価で中断率の低いSpot Instancesを、AWS Batchで効率的に使い切る戦略が、最大56%という劇的なコスト削減を実現したのである。
技術的選択がもたらすビジネスインパクトと今後の展望
このコスト削減がMetagenomiにもたらした影響は、単なる経費節減に留まらない。同社のディスカバリー責任者であるChris Brown氏は、「以前は年間一つのプロジェクトだったものが、チームが一日あるいは一週間で複数回実行できるものに変わった」と述べている。 これは、AIによる創薬の試行錯誤サイクルが桁違いに高速化したことを意味し、革新的な治療法を早期に発見する確率を直接的に高める。コストの壁が取り払われたことで、より多くの酵素クラス、より多様なパラメータでの探索が可能になり、まさに「科学の量」が「科学の質」へと転化しているのである。
本件は、AIアクセラレータ市場における大きなトレンドを浮き彫りにした。汎用性を誇るNVIDIAのGPUとその強力なCUDAエコシステムが市場を支配する一方で、AWS(Inferentia/Trainium)、Google(TPU)、Microsoft(Maia)といったハイパースケーラーは、自社のワークロードに最適化したカスタムチップ(ASIC)の開発を加速させている。特定のタスク、特に大規模な推論処理においては、ASICが圧倒的なコストパフォーマンスを発揮する事例が今後さらに増えるだろう。
ハードウェアとソフトウェアの協調設計が拓くAI創薬の未来
Metagenomiの成功は、単一の高性能なチップによってもたらされたものではない。それは、AIモデル(Progen2)の特性、推論特化型ハードウェア(Inferentia 2)のアーキテクチャ、ハードウェアを駆動するソフトウェア(Neuron SDK)、そしてクラウドサービス(Spot Instances, AWS Batch)という4つの要素が、一つの目標(=大規模タンパク質生成のコスト効率最大化)に向かって緻密に協調設計された結果である。
絶対性能(Performance)だけでなく、性能あたりのコスト(Performance/Cost)や性能あたりの電力(Performance/Watt)が、特にクラウドスケールで展開されるAIアプリケーションの成否を分ける決定的な指標となりつつある。ハードウェアアーキテクチャの深い理解に基づき、ワークロードに最適なインフラを選択・最適化する能力が、AI時代の技術的優位性の源泉となることを、この事例は明確に示している。
Sources