中国の半導体設計企業Innosilicon Technology(芯動科技)が、最新GPU「Fenghua No.3(風華3号)」を発表した。本製品は、従来のIPコア依存から脱却し、オープンソースのRISC-Vアーキテクチャを基盤とする独自設計への移行を明確に示した点で技術的に極めて重要と言える。112GBを超える大容量HBMメモリ、ハードウェアアクセラレーションによるレイトレーシング、そしてNVIDIAの牙城であるCUDAエコシステムとの互換性を謳うなど、その野心的な仕様はAI、HPC、グラフィックス市場に新たな問いを投げかけるものだ。

AD

IPコア依存からの脱却とRISC-Vへの戦略的転換

Fenghua No.3の登場を理解するには、中国の半導体戦略と、Innosilicon自身のこれまでの歩みを振り返る必要がある。中国は長年、重要技術分野における半導体の自給自足(国産化)を国家戦略として掲げてきた。GPUもその例外ではなく、データセンターからコンシューマデバイスまで、あらゆる計算基盤の中核をなすGPUの国産化は急務とされている。

この文脈において、Innosiliconが過去にリリースした「Fenghua No.1」および「Fenghua No.2」は、英国Imagination Technologies社のPowerVR IP(Intellectual Property)をライセンス供与される形で開発されていた。 IPライセンスモデルは、開発期間の短縮や初期開発コストの抑制というメリットがある一方で、アーキテクチャの根幹を外部技術に依存するため、カスタマイズの自由度に制限があり、地政学的リスクにも脆弱である。また、ライセンス料は継続的なコストとなる。

Fenghua No.3は、このIP依存モデルからの決別を意味する。今回採用されたのは、オープンソースの命令セットアーキテクチャ(ISA)であるRISC-Vだ。 具体的には、OpenCore Instituteの「Nanhu V3」プロジェクトが設計の基盤となっていると報じられている。 このRISC-Vへの転換は、単なる技術選択の変更ではない。以下の点で、Innosiliconおよび中国のGPU開発における戦略的な転換点と分析できる。

  1. 設計の主権確保: ライセンスに縛られることなく、ISAレベルから自由にアーキテクチャを拡張・最適化できる。これにより、特定のワークロード(例えばAI推論や科学技術計算)に特化した命令を追加するなど、独自のGPUアーキテクチャを構築する道が開かれる。
  2. コストとリスクの低減: オープンソースであるため、高額なライセンス料が発生しない。また、特定の企業や国家の政策に設計の根幹が左右されるリスクを排除できる。
  3. エコシステムの活用: RISC-Vは世界的に開発者コミュニティが拡大しており、ツールチェイン(コンパイラ、デバッガなど)やソフトウェア資産の蓄積が進んでいる。このオープンなエコシステムに参加することで、開発を加速させることが可能となる。

この転換は、中国が目指す「技術的独立」への強い意志の表れであり、Fenghua No.3は、その具体的な成果として評価されるべき最初のGPUと言えるだろう。

Fenghua No.3のアーキテクチャと最重要論点

Fenghua No.3は、AI、HPC、CAD、医療、そしてゲーミングまで、極めて広範な用途を想定している。 このような「汎用GPU」を実現するには、アーキテクチャレベルで様々な工夫が必要となる。ここでは、その核心部分、特にCUDA互換性という野心的な目標について深く考察する。

アーキテクチャの核心:RISC-Vベースのヘテロジニアス構成

Fenghua No.3は「RISC-V CPUとCUDA互換のグラフィックスコアを単一カードに統合した」と説明されている。 この記述から、GPU全体がRISC-V命令のみで動作するのではなく、GPU内の制御やスケジューリングを担う汎用プロセッサコアとしてRISC-Vが採用され、演算の主体であるシェーダーコア(あるいはAIアクセラレータ)群は別途専用設計されているヘテロジニアス(異種混合)アーキテクチャであると推察される。

これは現代のGPUアーキテクチャにおける標準的なアプローチである。NVIDIA GPUにおいても、全体の制御を行うプロセッサ(GPC内のスケジューラなど)と、膨大な数の演算を行うCUDAコアは役割が明確に分離されている。Fenghua No.3がRISC-Vを採用したのは、この制御部分をオープンなISAで構築し、設計の柔軟性と独立性を確保する狙いがあると考えられる。

一方で、グラフィックスパイプラインや並列計算を実行する演算コア群のマイクロアーキテクチャについては情報がほとんどない。しかし、ハードウェアレイトレーシングやDirectX 12への対応を謳っている以上、レイトラバーサルやBVH(Bounding Volume Hierarchy)処理を高速化する専用ユニット、そして現代的なシェーダーモデルを実行可能なプログラマブル演算コアを備えていることは確実である。

CUDA互換性という最大の論点:技術的実現性と三つのアプローチ

Fenghua No.3に関して最も注目すべき、そして最も懐疑的に検証されるべき主張が「CUDA互換性」である。 NVIDIAが十数年をかけて築き上げてきたCUDAは、単なるAPIの集合体ではない。コンパイラ(NVCC)、最適化された数値計算ライブラリ(cuBLAS, cuDNN, cuFFT等)、デバッガ、プロファイラ、そして膨大な数のサードパーティ製アプリケーションや研究コードを含む、巨大で強力な開発者エコシステムそのものである。

このエコシステムへのアクセスは、新規参入GPUがデータセンター市場で成功するための絶対条件に近い。InnosiliconがCUDA互換性を目指すのは、このソフトウェア資産を自社ハードウェア上で活用し、市場投入初期のソフトウェア不足という最大の障壁を乗り越えようとする、極めて合理的な戦略である。

しかし、CUDAはNVIDIAのプロプライエタリ技術であり、その内部仕様は公開されていない。完全な互換性を実現することは技術的に極めて困難であり、Innosiliconがどのようなアプローチで「互換性」を実現しようとしているのかを分析する必要がある。考えられるアプローチは、主に以下の三つに大別される。

アプローチ1:API変換レイヤー(高レベル)

これは、CUDA APIの呼び出しを、Fenghua No.3のネイティブなドライバAPIに変換するミドルウェア(変換ライブラリ)を開発するアプローチである。AMDが自社のROCmプラットフォームで提供しているHIP(Heterogeneous-compute Interface for Portability)がこの代表例だ。HIPは、CUDAコードを最小限の変更でROCm上でコンパイル・実行可能にするためのツールを提供する。

  • メリット: 既存のCUDAソースコードを再利用しやすい。比較的実現性が高い。
  • デメリット: パフォーマンスの最適化が極めて難しい。CUDAの全てのAPIや機能を網羅することは困難であり、互換性は不完全になりがち。特に、NVIDIAのドライバやハードウェアの特定機能に深く依存したコードは変換できない可能性が高い。ライブラリ(cuBLAS等)の互換性も、独自に同等の性能を持つライブラリを実装する必要があり、膨大な開発コストがかかる。

アプローチ2:中間表現(PTX)のJITコンパイル(中レベル)

CUDAのコンパイラNVCCは、CUDA C++コードをPTX(Parallel Thread Execution)と呼ばれる仮想的な中間表現にコンパイルする。このPTXは、各世代のNVIDIA GPUのネイティブ命令セット(SASS)に、ドライバによって実行時(Just-in-Time, JIT)にコンパイルされる。

Innosiliconがこのアプローチを採る場合、NVIDIA製GPUの代わりに、PTXをFenghua No.3のネイティブ命令セットに変換するJITコンパイラを自社ドライバに実装することになる。

  • メリット: ソースコードがないCUDAアプリケーション(コンパイル済みバイナリ)でも、PTXが含まれていれば実行できる可能性がある。API変換レイヤーよりもハードウェアに近いレベルでの最適化が期待できる。
  • デメリット: PTXの仕様は公開されている部分もあるが、完全ではなく、リバースエンジニアリングが必要になる部分が多い。NVIDIAはGPU世代ごとにPTXの仕様を拡張しており、追従し続けるのは困難。JITコンパイルによるオーバーヘッドも発生する。

アプローチ3:ハードウェア命令セット互換(低レベル)

これは、Fenghua No.3の演算コアが、NVIDIA GPUのネイティブ命令セット(SASS)を直接、あるいは部分的に実行できるように設計するアプローチである。

  • メリット: 互換性が最も高くなり、パフォーマンスの劣化を最小限に抑えられる可能性がある。既存のCUDAバイナリをそのまま実行できる可能性がある。
  • デメリット: 技術的難易度が極めて高い。SASSは非公開であり、大規模なリバースエンジニアリングが必須となる。さらに、NVIDIAが保有する膨大な数のハードウェア関連特許を侵害するリスクが非常に高く、法的な観点から見て最も現実的ではないアプローチである。

現実的な路線と「互換性」のレベル

これらのアプローチを考慮すると、Innosiliconが目指しているのは、アプローチ1(API変換レイヤー)と、部分的なアプローチ2(PTX JITコンパイル)のハイブリッドである可能性が最も高いと推察される。まずは主要なCUDA APIをカバーする変換ライブラリを整備し、よく使われるライブラリ(cuBLAS相当など)を独自に最適化実装する。同時に、特定のアプリケーション向けにPTXからのJITコンパイル機能を限定的にサポートする、という路線が現実的だ。

重要なのは、Innosiliconが主張する「互換性」が、完全なバイナリ互換性を意味するものでは決してないという点である。おそらくは「ソースコードレベルでの移植性」を指しており、開発者はコードの修正や再コンパイルが必要になるだろう。パフォーマンスに関しても、NVIDIAのネイティブハードウェア上で実行した場合と同等になる保証はなく、むしろ大幅に劣る可能性も考慮すべきである。この「CUDA互換性」の主張は、その真のレベルと性能が第三者によって検証されるまでは、慎重に評価する必要がある。

AD

パフォーマンスとハードウェア仕様に関する分析

Fenghua No.3は、その仕様からAI/HPC市場とプロフェッショナルグラフィックス市場を明確にターゲットにしている。

AI/HPC性能を規定するメモリサブシステム

Fenghua No.3の最も印象的な仕様の一つが、「112GB+」と表現されるHBM(High Bandwidth Memory)の搭載である。 この大容量・広帯域メモリは、特に大規模言語モデル(LLM)の学習や推論において決定的な役割を果たす。

  • 112GB+という容量のインパクト:
    現代のLLMは、そのパラメータを格納するために数十GBから数百GBのVRAMを要求する。例えば、70B(700億)パラメータモデルをFP16(半精度浮動小数点数)でロードするだけでも、単純計算で140GBのVRAMが必要となる。Fenghua No.3の112GBという容量は、単体で32B(FP16で64GB)や72B(INT8量子化で72GB)といった比較的大規模なモデルをメモリ内に収容できることを意味する。 これにより、複数のGPUにモデルを分割(テンソルパラレル)せずとも推論が可能となり、レイテンシやシステム全体の複雑さを低減できる。
  • 数値の謎とアーキテクチャの推測:
    「112GB」という数値は、標準的なHBMスタック構成(例: 16GB, 24GB)の単純な倍数ではないため、技術的な興味を引く。例えば、24GBのHBM3eスタックを4つ(計96GB)と16GBのHBM3スタックを1つ(計112GB)といった変則的な構成も考えられるが、メモリコントローラの設計が複雑になるため一般的ではない。あるいは、7つのメモリコントローラを持つ独自設計のインターポーザを採用している可能性も考えられる。この特異な数値は、Innosiliconがメモリ容量とコスト、そして歩留まりのバランスを取った結果である可能性を示唆している。
  • マルチGPU構成のポテンシャル:
    Innosiliconは、8基のFenghua No.3を連携させることで、671Bや685Bといった超大規模モデルを扱えると主張している。 これを実現するには、GPU間の高速なインターコネクト技術が不可欠である。NVIDIAのNVLinkのような専用バスに関する情報は現時点ではないが、PCIe Gen5/Gen6や、あるいは独自のインターコネクト技術を開発している可能性が考えられる。このスケーラビリティが、データセンターにおけるFenghua No.3の価値を大きく左右するだろう。

グラフィックス機能の実力とドライバの成熟度という課題

AI/HPCだけでなく、Fenghua No.3はグラフィックス機能も重視している。

  • APIサポートとハードウェアレイトレーシング:
    DirectX 12、Vulkan 1.2、OpenGL 4.6といった最新のグラフィックスAPIへの対応は、このGPUが現代的なレンダリングパイプラインをハードウェアレベルで実装していることを示している。 特に「中国初」を謳うハードウェアレイトレーシング機能は、技術的なマイルストーンと言える。 NVIDIAのRTコアやAMDのRay Acceleratorと同様の、BVHトラバーサルやレイ・トライアングル交差判定を高速化する専用ユニットを搭載していると見られる。
  • 性能は未知数、最大の課題はドライバ:
    記者会見では『Tomb Raider』や『Valorant』といったゲームのデモが行われたが、解像度、画質設定、フレームレートといった具体的なパフォーマンス指標は一切公開されなかった。 これは、現時点での性能が競合製品に及ばないか、あるいはドライバがまだ不安定であることを示唆している。
    GPUの性能を最大限に引き出すには、ハードウェアそのものと同じくらい、ソフトウェア、特にグラフィックスドライバの成熟度が重要である。APIコールをハードウェア命令に効率的に変換し、特定のゲームやアプリケーションに合わせて最適化を施すドライバの開発は、数千人年規模のエンジニアリングリソースを要する極めて困難な作業だ。APIをサポートすることと、実ゲームで安定して高いパフォーマンスを出すことの間には、大きな隔たりが存在する。Fenghua No.3が市場で評価されるには、継続的なドライバ開発と最適化が不可欠となる。

特定市場を狙うプロフェッショナル機能

Fenghua No.3は、コンシューマゲーミングよりも、プロフェッショナル市場やデータセンター市場を強く意識した機能を備えている。

  • 医療用イメージング (DICOM): 世界で初めてDICOM(医用画像標準規格)をネイティブサポートすると謳っている。 これにより、高価な専用ディスプレイなしで、X線やMRI画像を正確にグレースケール表示できるとしている。これは医療分野という特定のニッチ市場を攻略するための明確な戦略的機能である。
  • 高忠実度カラー (YUV444) と多画面出力: YUV444形式のサポートは、色情報を間引かないため、CADやビデオ編集といった色の正確性が求められる業務で有利となる。 また、最大6台の8Kディスプレイを30Hzで駆動できる能力も、金融トレーディングや監視システムなどのプロフェッショナル用途を想定したものだ。
  • 仮想化 (vGPU): vGPUアーキテクチャのサポートは、データセンターにおけるGPUリソースの分割利用を可能にする。 これにより、クラウドゲーミングやVDI(仮想デスクトップインフラ)といったサービスでの利用が見込まれる。

中国半導体戦略の現在地とFenghua No.3の意義

Innosilicon Fenghua No.3は、多くの点で画期的なGPUである。IPコア依存から脱却し、オープンなRISC-Vアーキテクチャを基盤に、大容量HBM、ハードウェアレイトレーシングといった現代的な機能を盛り込んだ設計は、中国の半導体設計能力が着実に向上していることを示している。

しかし、その評価は現時点では二つの側面から冷静に行う必要がある。

一つは、達成された技術的マイルストーンである。RISC-Vベースの複雑なSoCを設計し、HBMを統合し、最新のグラフィックスAPIをサポートするハードウェアを開発したこと自体は、大きな前進である。これは、中国が半導体サプライチェーンの上流(設計)において、着実に力をつけている証左に他ならない。

もう一つは、未証明の主張と残された課題である。特に「CUDA互換性」は、その実現レベルとパフォーマンスが未知数であり、現時点ではマーケティング上の主張の域を出ない。また、GPUの総合力を決定づけるドライバの成熟度、実際のアプリケーションにおけるパフォーマンス、そしてどの半導体ファウンドリで、どのプロセスノードを用いて製造されるのかといった基本的な情報も不明である。

結論として、Fenghua No.3は、NVIDIAのH100やAMDのInstinct MI300といった最先端の製品と性能で直接競合することを目的とした製品ではないと見るべきだ。その真の目的は、中国国内のAI、HPC、データセンターといった重要インフラにおいて、海外製GPUへの依存度を低減し、「代替可能」な選択肢を提供することにある。性能が8割、あるいは5割であっても、国内で設計・供給できるという事実そのものが戦略的に重要なのである。

Fenghua No.3は、完璧な製品ではないかもしれない。しかし、中国が目指す技術的自立という長い道のりにおける、極めて重要かつ具体的な一歩を示したGPUとして、今後の動向を注視する必要があるだろう。


Sources