2026年5月10日、The Registerは、AI需要でDRAMが逼迫するなか、CXL接続の外部メモリアプライアンスが「memory godbox」として次のサーバー更新で存在感を増す可能性を報じた。TrendForceは2026年第2四半期の従来型DRAM契約価格を前四半期比58-63%上昇と見ており、メモリはラック単位のコスト計算を左右する部材になった。CXLはDRAMの総供給量を増やさないが、サーバーごとに固定されていた容量をプールし、必要なホストへ割り当て直す余地を作る。焦点は「足りないメモリを買わずに済む」ことではなく、「買ったメモリを遊ばせない」調達へ移れるかだ。

AD

58-63%高騰が、メモリをサーバー単位で抱える設計を揺らす

2026年3月31日、TrendForceは2026年第2四半期の従来型DRAM契約価格を前四半期比58-63%増、NAND Flash契約価格を70-75%増と予測した。DRAMサプライヤーはHBMとサーバー用途へ生産能力を寄せており、北米クラウド事業者のAI推論展開が高容量RDIMMの調達を押し上げている。PCやスマートフォンの需要が弱くても、AIサーバーと汎用サーバーの需要が供給の優先順位を変えているため、企業の通常更新にも価格圧力が及ぶ。

データセンター運用では、各サーバーにピーク時を見越したDIMMを載せる設計が長く使われてきた。仮想化基盤、インメモリDB、HPC、分析処理では、CPU使用率より先にメモリ容量が上限になることがある。一方で、負荷の山は全ノードで同時に来るとは限らず、ラック全体で見ると未使用DRAMが散らばる。DRAMが高騰すると、この「散らばった余白」がそのまま設備投資の無駄として見えやすくなる。

AI推論はこの問題をさらに複雑にしている。GPUのHBMだけでなく、推論中のKVキャッシュをCPUメモリやさらに下の階層へ退避する実装が広がりつつある。NVIDIA DynamoのKVBMは、vLLMやTensorRT-LLM向けにGPUメモリ、pinned host memory、リモートメモリ、SSDなどをまたぐKVブロック管理を提供する。大規模推論では、メモリは単なる容量ではなく、どの階層に、どの遅延で、どの寿命コストで置くかを決める運用対象になっている。

CXL 3.0の差分は、メモリ増設ではなく共有ファブリックである

CXL Consortiumは、CXLをCPU、メモリ拡張、アクセラレータ向けのキャッシュコヒーレント・インターコネクトと定義している。CPUメモリ空間と接続デバイス上のメモリのコヒーレンシを保つため、OSやアプリケーションから見ると、外部メモリを単なるネットワークストレージとは異なる粒度で扱える。CXL 1.xでは主にメモリ拡張、CXL 2.0ではスイッチングとプーリングが導入され、特定ホストへ容量を割り当てる運用が現実になった。

2022年8月に公開されたCXL 3.0は、ここから一段進んでファブリック機能、メモリ共有とプーリング、強化されたコヒーレンシ、ピアツーピア通信を掲げた。データレートは64GT/sで、CXL 2.0比の追加遅延なしと説明されている。The Registerが強調した「memory godbox」の新しさも、外部筐体にDRAMを積むこと自体ではなく、複数ホストがファブリック越しにメモリを共有できる方向へ仕様が進んだ点にある。CXL 4.0ではさらに128GT/sへ帯域を倍増し、bundled portsとmemory RAS強化を加えたが、対応機器が広く出回るまでには時間がかかる。

CPU側の受け皿はすでに広がっている。Intelは第4世代Xeon Scalable、第5世代Xeon Scalable、Xeon 6でCXLとPCIe 5.0をサポートすると掲載している。AMDEPYC 9005も、データシートでCXL 2.0の機能として、最大12本のDDR5-6400メモリチャネル、128本のPCIe Gen5 I/Oレーンを掲げる。ただし、CPUがCXLを持つことと、CXL 3.xの共有ファブリックを本番環境のメモリ配備として使えることは同じではない。サーバーベンダーの実装、スイッチ、OS、ハイパーバイザー、ファブリック管理ソフトウェアまで揃って初めて、調達上の選択肢になる。

AD

100TBプールと256レーンスイッチは出てきたが、遅延と隔離が線引きになる

LiqidはCXL 2.0ベースのComposable Memoryで、MatrixソフトウェアからDRAMをリアルタイムに構成、拡大縮小、共有できると説明している。同社の説明では、5TBから100TBを単一ワークロードへ割り当てる構成や、最大32サーバーで100TBを共有する構成が想定されている。これは「各サーバーに最大容量を積む」調達から、「ラックやポッド単位でメモリを持つ」調達へ移る具体例である。インメモリDB、HPC、仮想化、開発検証環境のように、容量の山が時間で移る用途ほど効果が出やすい。

PanmnesiaPanSwitchは、CXL 3.2とPCIe 6.4に対応するスイッチとして、256レーン、64GT/s、CXL.io、CXL.mem、CXL.cache、Type 1/2/3デバイス対応を掲げている。同社はマルチレベルスイッチング、ツリー/非ツリートポロジー、100ナノ秒未満の低遅延も示しており、CXLが単体の増設カードからファブリック部品へ広がっていることが分かる。CXL 3.x世代の価値は、DRAM容量だけでなく、CPU、GPU、アクセラレータ、メモリデバイスをどの粒度で組み替えられるかに移っていく。

制約は明確である。The RegisterはCXL接続メモリの往復遅延をNUMAホップ級の約170-250nsと説明しており、ローカルDDR5の完全な置き換えにはならない。レイテンシに敏感なデータ構造や、帯域を常時使い切る処理では、近いメモリと遠いメモリの配置を明示的に考える必要がある。さらに、複数ホストがメモリを共有するほど、隔離、暗号化、障害伝播、メモリRAS、ファブリック管理の設計が重要になる。CXL 4.0がmemory RASを強化したことも、容量拡張だけでは運用要件を満たせない現実を示している。

AIのKVキャッシュは、救済先のCXLメモリも食べに来る

AI推論のKVキャッシュは、CXLメモリの需要側にも供給側にもなる。長いコンテキストやマルチテナント推論では、GPU上に置けるKVキャッシュ量がスループットと同時実行数を左右する。キャッシュを捨てて再計算するより、CPUメモリやリモートメモリへ退避して再利用した方が効率的な場面がある。NVIDIA Dynamo KVBMがCPU cache、CPU+disk cache、リモート共有を扱うのは、推論基盤がGPU単体の問題からメモリ階層全体の問題へ移っているためである。

SSD退避は容量を稼げるが、書き込み耐久性と遅延が残る。DRAMベースのCXLメモリプールは、その中間層として魅力がある。HBMほど高価で近くはないが、SSDより低遅延で書き込み寿命の心配が小さい。企業が期待する「DRAM高騰の逃げ道」は、余剰容量の再配分だけでなく、GPUメモリからあふれる推論状態をどこに置くかという設計にも関係してくる。

2026年時点での結論は、CXLメモリはRAMpocalypseを終わらせる救済策ではなく、メモリを固定資産から共有資源へ近づける技術である。DRAM価格が上がるほど、100TB級プールや256レーン級スイッチの費用対効果は説明しやすくなる。一方で、AI推論そのものがDDR5とリモートメモリを消費するため、CXLによって空いた余白はすぐ別のワークロードに飲み込まれる可能性がある。

導入判断では、総容量よりも配置ルールが先に来る。どのワークロードが170-250ns級の遠隔メモリを許容し、どのデータを複数ホストで扱ってよく、どこからはローカルDRAMに残すべきかを切り分けられる企業ほど、CXLメモリを単なる増設箱ではなく調達リスクを下げる部品として使える。