AI半導体の競争軸は、GPUのピークFLOPSだけでは語れなくなってきた。推論需要が伸びるほど、データセンター側が重視するのは「応答の速さ」「同時にさばけるユーザー数」「同じ電力枠でどれだけ収益を出せるか」という三つの指標に移っている。米Tensordyneが2026年6月15日に発表した「Tensordyne Napier」は、まさにこの論点に正面から踏み込む3nm世代の推論システムだ。

Tensordyneは同日、Napierプロセッサのテープアウトを完了し、TSMCの3nmプロセスで製造フェーズに入ったと発表した。NapierはBroadcomおよびHPE Juniper Networksとの協業で構築するAI推論プラットフォームとして位置づけられており、中核にあるのは三つ。従来の乗算中心の演算を対数数学で軽量化する「TDN Math」、HBMとSRAMを統合するAIプロセッサ、そしてチップ間通信を詰まらせないスケールアップ相互接続である。

発表で最も目を引くのは、NVIDIA Blackwellシステムに対する「トークン毎秒 最大13倍」「トークン毎ワット 最大17倍」という主張である。さらに、1ラック構成でマルチ兆パラメータモデルをユーザーあたり1,000トークン毎秒超で処理できるとし、同等のスループットを得るには少なくとも9ラックのNVIDIA Rubin + Groq LPXが必要になるとの試算を示している。これは「チップを速くした」というより、AI推論をラック単位の採算モデルとして再設計したという宣言に近い。

AD

13倍の主張は、GPU比較ではなく推論インフラの比較

Tensordyneが前面に出す数字は、GPU単体のピーク性能ではない。同社のInference Systemページでは、DeepSeek R1を前提に、Tensordyne Rackが363,000トークン毎秒、NVIDIA NVL72 GB300が27,400トークン毎秒とされている。トークン毎kWhではTensordyneが1,100万、NVIDIA Blackwellが70万。ラックあたりの年商換算も4,500万ドル対1,200万ドルという数字を並べている。

この見せ方は、AIインフラの購買判断が変わりつつあることを映している。学習中心の時代には、巨大GPUクラスタをどれだけ早く確保できるかが競争力の源泉だった。推論中心の時代になると、同じラック、同じ電力、同じ冷却設備でどれだけ多くの応答を安定して返せるかが、クラウド事業者やネオクラウドの粗利に直結する。Napierのメッセージは、その採算表に直接書き込める数字を並べている点にある。

ただし、数字の性質は分けて見る必要がある。Tensordyne自身が脚注で認めている通り、NVIDIA側のスループットと出力速度の推定にはSemiAnalysis InferenceXの2026年4月1日時点データが用いられており、Tensordyne側のスループットと出力速度は内部シミュレーションに依拠している。価格予測も、Artificial Analysisの2026年4月9日時点のDeepSeek R1プロバイダー価格を参照したものである。つまりこれは、独立ベンチマークの勝敗表ではなく、Tensordyneが描いた商用推論モデルの設計図にすぎない。

NVIDIA側の基準も強い。GB300 NVL72は72基のBlackwell Ultra GPUと36基のGrace CPUを1つの液冷ラックにまとめ、37TBの高速メモリ、130TB/sのNVLink帯域、最大1,440PFLOPSのFP4 Tensor Core性能を掲げる。Vera Rubin NVL72はさらに、72基のRubin GPUと36基のVera CPU、20.7TBのHBM4、260TB/sのNVLink帯域、3,600PFLOPSのNVFP4推論性能を示している。Napierの主張が大きく響くのは、NVIDIAの次世代ラックをピーク演算で追いかけるのではなく、低レイテンシ推論とトークン経済という別の土俵を作ろうとしているからだ。

Napierの賭けどころは、対数数学とメモリ配置

Tensordyneの技術的な中核は、AI計算の基礎そのものを見直そうという発想にある。同社はTDN Mathについて、大規模な乗算を加算ベースの計算に置き換えることで性能あたりの電力を改善すると説明する。Silicon & Mathページによれば、乗算器を軽量な対数数学の加算器へ置き換えることでチップ上の面積に余裕ができ、より広いデータパスや追加のオンチップメモリ、HBMを載せやすくなるという。

この主張は、現在のAI推論でボトルネックになっている制約と整合する。大規模言語モデルの推論では、演算器がいくら速くても、メモリやチップ間通信が詰まればトークン生成は頭打ちになる。特にMixture of Expertsや長文コンテキスト、エージェント型ワークロードでは、活性化すべき専門家、KVキャッシュ、ユーザーごとの応答速度を同時にさばく必要がある。TensordyneはHBMとSRAMを密に組み合わせ、チップ間をサブマイクロ秒級の相互接続で結ぶことで、演算器の待ち時間を抑える設計を打ち出している。

Napierチップ単体の仕様としては、1380億トランジスタ、144GBのHBM3E、256MBのSRAM、Dense FP8で2.1PFLOPS、300W TDPが報告されている。これらはTensordyneが前面に出すラック単位のKPIとは別枠の補足情報として読むのが妥当だが、Napierの売り口が「演算器を詰め込む」だけではなく、「メモリと通信まで含めてトークン生成を止めない」方向にあることは、公式ページの説明と一致する。

システム構成もその思想に従う。Tensordyneは72チップのTDN72ポッドを単位とし、4ポッドを束ねて1ラックを構成する。公式ページでは、1ポッドあたり30kWの空冷設計、標準モードとディスアグリゲート推論モードの切り替え、PyTorch/Triton/vLLMへの対応、Torch風eDSLにも触れている。Napierが本当に採用されるかは、チップ性能だけでなく、既存のクラウド運用にどれだけ自然に乗るかに左右されるだろう。

BlackwellとRubinへの挑戦には、未検証の余白がある

Napierの発表で最も注目すべきは、Blackwell比13倍、Rubinを1ラックで上回るという比較だろう。だが、ここで並べられているのはNVIDIA公式ベンチマークとTensordyne実機ベンチマークの横並びではない。TensordyneのページはNVIDIA側の推定値に外部データを使い、Napier側を内部シミュレーションで補っている。商用化前の新アーキテクチャでは珍しくはないが、購入判断に耐える証拠としては次のステップが要る。

NVIDIA側も黙ってはいない。Blackwell Ultra世代のGB300 NVL72は「test-time scaling inference and AI reasoning tasks」向けと説明されており、Vera Rubin NVL72ではBlackwell比で推論コストを10分の1、同一電力枠でのトークン処理量を最大10倍にすると打ち出している。Vera Rubinの仕様値には予備情報を含むが、NVIDIAはGPU、CPU、NVLink、NIC、DPU、Ethernetスイッチまで一体で積み上げるラックスケール設計を前面に出す。Napierは、この巨大な既存エコシステムを相手に、計算方式の刷新と低電力推論の経済性で割り込みを図ることになる。

Tensordyneが有利に見えるのは、あくまで高インタラクティブな推論の場面に限られる。ユーザーあたりの出力速度、ラックあたりのトークン量、電力あたりのトークン、価格あたりの収益といった指標では、ピークFLOPSよりメモリ滞留、通信遅延、スケジューリング、モデル精度維持の方が効く。Napierの対数数学がモデル精度を損なわず、16ビット相当の品質を保ったまま推論コストを下げられるなら、GPUに対する攻め口として成立する。

逆に言えば、そこが最大の確認ポイントでもある。独自形式の数値表現や量子化に近い手法は、モデルやワークロードによって効き方が変わる。Tensordyneは「精度劣化なし」をうたうが、公開された独立検証、幅広いモデルでの再現性、実運用でのスケジューリング、障害時の保守性、既存ソフトウェアスタックとの互換性が揃わなければ、NVIDIAのラックを置き換えるという判断には至らない。Napierの発表はインパクトがあるが、勝否を分けるのはデモではなく、顧客環境での長時間運用だ。

AD

2億ドル超の需要見通しは、受注ではなく商談の厚みを示す

商用面では、Tensordyneはすでに12件を超えるLetters of Intent(LOI)を取得しており、ベンチマーク、ベータ展開、インフラ計画に進む機会として2億ドル超のNapierシステム需要を見込んでいるとする。ただ、これは確定売上ではない。LOIは関心表明や初期合意の材料であり、最終契約、納入、稼働、継続利用とは別物だ。それでも、推論コストに頭を悩ませるハイパースケーラー、ネオクラウド、主権AIインフラ事業者が、NVIDIA一辺倒ではない選択肢を探していることは読み取れる。

発表のタイミングは、同社が今後の資金調達と顧客検証を進める局面にも重なっている。Napierを技術発表で終わらせず、ベータ展開と量産に必要な資金のストーリーへつなげるための布石でもある。TensordyneはSunnyvaleとMunichを拠点とし、過去には7nmのScorpioチップをTSMCでテープアウトした実績を持つ。NapierではBroadcom、TSMC、HPE Juniper Networksとの名前を前面に出す形で、新興半導体企業につきまとう製造・ネットワーク・システム統合への不安を和らげようとしている。

それでも、導入までの道のりは長い。テープアウト後の製造・検証段階に入るチップが、良品率、消費電力、熱設計、ラック単位の保守性、ソフトウェア互換性で期待通りに動くかは、ベータで初めて明らかになる。さらに、NVIDIAはハードウェアだけでなく、CUDA、推論最適化、ネットワーク、運用ソフトウェア、クラウドパートナーの厚みを持つ。Napierが勝つには、特定の推論ワークロードで圧倒的に安く速いだけでなく、導入リスクを許容できるレベルまで引き下げる必要がある。

今回のNapier発表が示したのは、AI半導体市場の競争軸が広がったという事実である。BlackwellやRubinのような汎用GPUラックに対し、Tensordyneは推論の速度、電力、収益性を一体で最適化する専用システムをぶつけてきた。次に問われるのは、同社のシミュレーションが実機ベンチマーク、顧客のベータ環境、実際のトークン単価でどこまで再現されるかである。それが確認できれば、Napierは「NVIDIA対抗」という見出しを超え、推論インフラの買い方そのものを揺さぶる候補になり得る。