LLMを動かすとき、最新のAIアクセラレータが持つ計算能力の1%未満しか使われていない場面がある。計算が足りないのではなく、データを運ぶ「道」が足りない。AIチップの演算ユニットは光速でデータを待ち続けているのに、メモリからデータが届かず空回りする——これが「メモリウォール」だ。Qualcommは2026年6月24日のInvestor Day 2026で、このボトルネックを根本から解消する技術「HBC(High Bandwidth Compute)」を発表した。アプローチは一言で言えば「コンピュートをメモリの真下に置く」という発想の逆転だ。
AIが「計算不足」ではなく「配送不足」で詰まる理由
LLMの推論はプリフィル(入力処理)とデコード(トークン生成)の2フェーズから成る。プリフィルは演算量が多く、GPUの並列処理能力が活きる局面だ。しかしユーザーが実際に体感する「返答が生成される」デコードフェーズは異なる性質を持つ。トークンを1つずつ逐次生成するため演算量は少ないが、KVキャッシュへの頻繁なアクセスが不可欠だ。
KVキャッシュとは、文脈を記憶するために過去のトークン情報をメモリに格納したもので、大規模モデルでは1GPU当たり80〜120GBを超えることも珍しくない。これだけのデータを何度も読み書きするのに十分な帯域幅が、現在のシステムにはない。NVIDIA H100のHBM3メモリ帯域幅は約3.35 TB/sで、AIアクセラレータの最高峰の一つではあるが、それでも大規模モデルの推論では帯域が追いつかない局面が生じる。LPDDRの帯域幅に至っては約51.2 GB/sに過ぎず、標準的なサーバー構成でAI推論を行えばボトルネックは明白だ。チップの演算能力がどれだけ高くてもデータが届かなければ結果は出ない。
HBMの3つの制約:コスト・製造・電力
HBMには構造的な問題が3つある。第一はコストだ。HBM3eの価格は1GBあたり10〜15ドルに達するのに対し、LPDDR5Xは2〜4ドルに留まる。768GBの容量で比較すれば、HBMを使うと約4〜5倍の材料コストになる計算だ。第二は製造能力の制約だ。NVIDIA B200やAMD MI300XのようなHBM搭載チップはTSMCのCoWoS(Chip-on-Wafer-on-Substrate)インターポーザー技術を使って製造するが、CoWoSの生産能力は旺盛なAI需要に追いついていない。第三は電力だ。HBMとコンピュートをインターポーザー経由で接続する構造は、データが物理的な「橋」を渡るたびに電力を消費する。帯域幅は広くても、その分エネルギーも食う。
これら3つの制約はHBMそのものの技術的欠陥ではなく、「HBMとコンピュートを横に並べてインターポーザーでつなぐ」というアーキテクチャ上の選択から来るものだ。
QualcommのHBC:DRAMの直下にコンピュートを積む仕組み

LPDDRメモリのスタックを上に置き、その真下にコンピュートダイを配置してTSVで直接接続する。これがQualcommの選んだ垂直統合アプローチだ。通常のAIアクセラレータはHBMとコンピュートダイを水平方向に並べ、インターポーザー(基板)を介して接続する。データが移動するたびにインターポーザーを経由するため、その分だけ電力と遅延が生まれる。HBCはこれを垂直方向に組み替える。
コンピュートダイとLPDDRを接続するTSV(Through-Silicon Via)とはシリコンダイを縦方向に貫通する極細の電極の束で、物理距離を限界まで縮めてデータ転送のオーバーヘッドを排除する。HBC Gen1(AI250搭載)ではこの積層構造を2Dオーガニック基板上に配置する。TSMCのCoWoSは使わない。HBMほど帯域幅に優れたメモリを使わなくても、結果としてカード1枚あたり133 TB/sという実効メモリ帯域幅を達成する。AI200のLPDDR5Xベースラインと比べて18倍の数値だ。
133 TB/s対3.35 TB/s——数字を競合と並べて読む
比較対象を置くと数値の意味が浮かび上がる。NVIDIA H100のHBM3帯域幅は約3.35 TB/s、後継のH200(HBM3e搭載)で約4.8 TB/s、最新世代B200では約8 TB/sまで引き上げられた。LPDDR5の帯域幅は約51.2 GB/s(=0.05 TB/s)だ。AI250の133 TB/sはH100の約40倍、NVIDIAが最先端とするB200と比べても約16倍に相当する帯域幅になる。HBMの世代を上げるごとに帯域幅は伸びているが、その伸び率はHBCの垂直積層がもたらす桁違いの跳躍には追いつかない。
2028年商用サンプリング予定のAI300はHBC Gen2を搭載し、AI200比で54倍の帯域幅増加を実現するとQualcommは発表している。電力効率はHBM比6倍の帯域幅毎ワット、容量効率はSRAM比200倍の容量毎ワットをQualcommは主張する(HBMの比較対象世代はQualcommが未公表)。SRAM比200倍という数字の意味は、LPDDRの容量密度がSRAMより圧倒的に高いことを示しており、巨大なKVキャッシュを省電力に維持できることを意味する。AI250のカード1枚あたりメモリ容量は768 GB LPDDRで、冷却は直接液冷、ラック電力は160 kWの設計だ。
競合陣営の経済学:HBM継続という戦略の内側
NVIDIAとAMDがHBMエコシステムを守り続ける理由は、技術的惰性だけではない——CUDAというソフトウェア資産が、高コストの維持を正当化している。NVIDIAはBlackwell世代のB200でHBM3eを採用し、H100比でメモリ帯域幅を約2倍に引き上げた。HBMの物理限界をCoWoS製造精度の向上で押し広げる路線だ。CUDAエコシステムという圧倒的なソフトウェア資産がそれを支え、高コストを顧客に受け入れさせる構造になっている。AMDはMI300Xシリーズで同様にHBM3を採用しつつ、ROCmソフトウェアスタックの整備を進めるが、AMD自身のCoWoS依存度も高く、製造能力の制約はNVIDIAと同様に抱える。
コスト面では、768GB構成でHBM3eをLPDDR5Xに置き換えるだけでメモリ材料コストは4〜5分の1まで下がる。AIアクセラレータ市場が2029年に6800億ドルへ拡大するとQualcommは試算しており、その市場の主要コンポーネントがHBMからLPDDRに切り替われば、カード1枚あたりの調達コスト格差は数万ドル規模になる。
メモリ側ではSamsungがHBM-PIM(Processing-In-Memory)という形でHBMの内部にコンピュートロジックを埋め込む実験を進めている。コンピュートをメモリの近くに持ち込むアプローチはQualcommのHBCと方向性が重なるが、HBMそのものをLPDDRに置き換える点で根本的に異なる。コスト・電力・製造能力の3問題を一度に解こうとするQualcommに対し、既存の枠組みの中で効率を引き出そうとする競合各社——という構図が業界の分断線だ。
Dragonflyプラットフォーム:パートナー戦略が示す勝算の根拠
ハードウェア単体では市場を奪えない。Qualcommが整備したパートナー網は、それを理解した上での布石だ。HBCはQualcomm Dragonflyと名付けられたデータセンター向け製品ファミリーに組み込まれており、アクセラレータ系列はAI200(現行)→AI250(HBC Gen1、2027年)→AI300(HBC Gen2、2028年)というロードマップで進む。CPUサイドではC1000が2028年に投入予定だ(250コア以上のチップレットアーキテクチャ)。
製造プロセスの面でも、HBCはTSMCのCoWoSラインを必要としない。AI250はTSMCの先端プロセスノードで製造されるが、CoWoSを使わないため同ラインの生産枠を争わずに済む。NVIDIA B200やAMD MI300Xがそれぞれ割り当てを確保する中、CoWoS依存を持たないQualcommは製造供給リスクという面でも構造的な有利さを持つ。
ソフトウェアスタックはPyTorch、ONNX、vLLMなど主要フレームワークに対応し、HexagonNPUはINT2からFP16まで幅広いデータ形式をサポートする。エコシステムパートナーにはLenovo、Samsung SDS、Micron Technology、SK hynix、Supermicroを含む35社以上が名を連ねる。特にLPDDR分野でMicronとSK hynixが加わっている点は重要だ。NVIDIA B200やAMD MI300Xに向けたHBM供給を担う同じ企業が、QualcommのLPDDR路線でも調達基盤を提供する——HBM非依存の調達戦略が実現可能であることの業界側からの裏付けでもある。
Modular買収とソフトウェア戦争:NVIDIAのCUDAに挑む理由
NVIDIAとの競争で足りないのは、ソフトウェア層の成熟度だ。Modular買収はその距離を埋めるための最短ルートとして位置づけられる。
Qualcommは約3920億円(27億ドル)でModularを買収することに合意し、2025年4月に取引が完了した。ModularはMojoプログラミング言語とMAX推論エンジンを開発した企業だ。Mojoの設計思想はPython互換の構文を持ちながら、C言語に匹敵するパフォーマンスを実現するというもので、AIエンジニアがCUDA最適化の深みに入らずとも高性能な推論コードを書けることを目指している。
MAXはそのMojo上に構築された推論エンジンで、LLM推論時のKVキャッシュアクセスパターンを最適化し、HBC物理積層による帯域幅利得をソフトウェア層で最大化するよう設計されている。CUDAがNVIDIAのGPUアーキテクチャに深く最適化された「物理アーキテクチャ合わせの計算グラフ」であるのに対し、MAXはハードウェア抽象化層で汎用最適化を実現する設計だ。ハードウェア(HBC)とソフトウェア(MAX)が協調してメモリ帯域効率を引き出す構造になっている。
Modularの創業者Chris LattnerはLLVMおよびSwiftプログラミング言語の設計者だ。Qualcommが27億ドルを投じたのはコンパイラ・言語設計の深い専門性に対する評価でもあり、「チップだけでは足りない」という認識が数字として現れている。
また2026年6月24日の発表では、MetaがQualcomm Dragonfly C1000および後継世代について複数年・複数世代にわたる契約を締結し、Qualcommにとって初の公表済み大型データセンター顧客となった。MetaはFacebook、Instagram、WhatsAppのAI推論処理に年間数十億ドルを投じる規模の顧客であり、C1000 CPU側が主体の契約だが、AIアクセラレータ側の採用検証はAI250の商用サンプリング後に本格化する。
2027年が試金石:発表値と実証の距離
AI250の133 TB/s性能は2027年中頃の商用サンプリングで初めて独立機関のベンチマーク検証が可能になる。それまでの数値はQualcomm自身の発表値であり、競合との性能比較が確定するのは各社製品との実機対決を経てからだ。Qualcommが掲げる2029年データセンター収益150億ドルという目標も、この検証フェーズをクリアした後に初めて現実味を持つ。
技術的なアーキテクチャとしてのHBCは整合性のある設計だ。HBMとCoWoSの制約をLPDDRと3D積層で回避するアプローチは、コスト・電力・製造能力の3問題を一度に解く可能性がある。競合がHBM内部にコンピュートを埋め込む方向に動いているのに対し、HBCはHBMそのものをLPDDRに置き換える点でより根本的な構造変化を意味する。
AI推論の経済学が変わるとすれば、その転換点はチップの演算性能ではなくメモリ帯域幅の調達コストにある。QualcommのHBCはその転換点を狙い撃ちにした技術だ。LPDDRの下にコンピュートを積むというシンプルな発想が、データセンター市場のアーキテクチャ選択にどんな影響を与えるか、2027年に答えが出始める。