Intel、ゲーム画質の「正解」をAIで示す新評価ツール「CGVQM」をオープンソース化：DLSS/FSR戦争に終止符を打つか？

Y Kobayashi2025年7月17日

約 11 分

Intel、ゲーム画質の「正解」をAIで示す新評価ツール「CGVQM」をオープンソース化：DLSS/FSR戦争に終止符を打つか？

Intelが、現代ゲームの複雑なグラフィックス品質を人間の知覚に限りなく近い精度で評価する、画期的なAIツール「CGVQM（Computer Graphics Visual Quality Metric）」をオープンソースとして公開した。これまでレビュアーやプレイヤーの主観に大きく依存してきたDLSS、FSR、そしてIntel自身のXeSSといったアップスケーリング技術の評価に、待望の客観的な「物差し」がもたらされるかもしれない。

なぜ今、新たな「物差し」が必要だったのか？

長年、デジタル映像の品質評価には「PSNR（Peak Signal-to-Noise Ratio）」や「SSIM（Structural Similarity Index）」といった指標が用いられてきた。これらは、元々は動画圧縮によって生じるブロックノイズやぼやけといった劣化を、元の映像と比較して数値化するために設計されたものだ。しかし、現代のゲームグラフィックスが直面する問題は、もはやその物差しでは測りきれないほど複雑化している。

従来の指標（PSNR/SSIM）の限界

今日のゲームは、パフォーマンス向上のためにAIを駆使した様々な技術を実装している。NVIDIAのDLSS、AMDのFSR、IntelのXeSSといった「ニューラルスーパーサンプリング」や、フレームレートを倍増させる「フレーム生成」技術がその代表格だ。これらの技術は、単なる圧縮とは異なり、AIがピクセルを「推測」し「生成」する。その過程で生まれるアーティファクト（副産物的な描画の乱れ）は、ゴースト（残像）、フリッカー（ちらつき）、エイリアシング（ジャギー）、あるいはAIによる不自然なディテールの「幻覚」など、極めて多様かつ捉えどころがない。

PSNRのような指標は主にロッシー圧縮の評価を目的としており、リアルタイムグラフィックス特有のこれらの問題を適切に評価することはできない。ピクセル単位の単純な輝度や構造の差分を計算するだけでは、動きの中で現れては消えるゴーストの「不快さ」や、テクスチャのディテールが不自然に生成される「違和感」を捉えることは不可能だったのである。

主観評価のジレンマ

この「物差しの不在」を埋めてきたのが、メディアのレビュアーや熱心なゲーマーによる主観的な比較評価だ。しかし、このアプローチには常にジレンマがつきまとう。どの程度のゴーストを「許容範囲」とするか、どのフリッカーが「気になる」レベルなのかは、個人の感覚やプレイ環境、モニター性能に大きく左右される。あるレビュアーが高く評価した画質が、別のユーザーには不満、という事態は日常茶飯事だ。

一方で、ゲーム開発者にとって、信頼性の高い評価を得るための大規模なユーザーテストは、膨大な時間とコストを要する。Intelの公式ブログが述べているように、数百のビデオサンプルを多様なコンテンツでテストするのは、現実的ではない。客観的で、スケーラブルで、かつ人間の知覚と一致する評価ツールへの渇望は、業界全体の喫緊の課題となっていたのである。

AIで「人間の目」を再現するCGVQMの核心

この長年の課題に対し、Intel Labsの研究者たちが出した答えがCGVQMだ。彼らは、単に既存の指標を改良するのではなく、AIを用いて「人間の視覚システムがどのように画質を認識するか」そのものをモデル化するという、野心的なアプローチを選択した。

脳となるAIモデル「3D ResNet-18」

CGVQMの心臓部には、「3D ResNet-18」と呼ばれるニューラルネットワークアーキテクチャが採用されている。一般的な画像認識AIが2D（空間）の情報を扱うのに対し、3D CNN（畳み込みニューラルネットワーク）は、それに加えて時間軸の情報を扱える点が決定的に重要だ。

なぜこれが重要なのか。ゴーストやフリッカーといったアーティファクトは、静止画一枚の中には存在せず、複数のフレームを連続して見ることで初めて認識される「時間的な現象」だからだ。3D ResNet-18は、ビデオクリップを空間と時間の両方で分析することで、これらの複雑な時空間アーティファクトを捉える能力を持つ。Intelの研究者たちは、元々ビデオ内の行動認識などで使われるこのネットワークの「特徴空間」が、人間の視覚品質の認識と強く相関することを発見したのだ。

教科書となったデータセット「CG-VQD」

優れたAIには、優れた教科書（データセット）が不可欠だ。Intelは、この目的のために「CG-VQD（Computer Graphics Visual Quality Dataset）」という、他に類を見ない独自のデータセットを構築した。

このデータセットには、Amazonの「Bistro」デモのような著名なものからカスタム環境まで、15の異なる3Dシーンを基にした80本の3秒ビデオクリップが含まれている。各クリップには、ニューラルスーパーサンプリング、パストレーシング、フレーム補間、ガウシアンスプラッティングなど、6種類の最先端レンダリング技術によって意図的に生成された、様々な種類のアーティファクトが収録されている。

そして最も重要な工程は、20名の被験者による主観評価の実施だ。参加者は、アーティファクトを含む映像と、完璧なリファレンス映像を比較し、その品質劣化が「知覚できない」レベルから「非常に不快」レベルまでで評価した。この人間による評価スコア（DMOS：Difference Mean Opinion Scores）を「正解データ」としてAIをファインチューニングすることで、CGVQMは単なるピクセルの差分ではなく、「人間がどう感じるか」を予測する能力を獲得したのである。

精度重視の「CGVQM-5」と速度重視の「CGVQM-2」

Intelは、開発現場の多様なニーズに応えるため、2つのバージョンのCGVQMを提供している。

CGVQM-5: ResNetの5層すべてを利用し、最大限の精度を追求するバージョン。Intelによれば、現在利用可能なすべてのフルリファレンス指標を上回り、人間の評価との相関性において肉薄する性能を誇る。
CGVQM-2: 最初の2層のみを使用する軽量版。精度ではCGVQM-5に劣るものの、それでも競合ツールを上回る性能を維持しつつ、大幅に高速で動作する。これは、ビルドごとに品質チェックを行うような継続的インテグレーション（CI）システムへの組み込みに最適だ。

開発現場からレビューまで、CGVQMがもたらす変革

GitHub上でPyTorchアプリケーションとして公開されたCGVQMは、すでに具体的な応用への扉を開いている。

開発者のメリット：エラーマップによる問題の可視化

CGVQMの真価は、単一の品質スコアを提示するだけではない点にある。本ツールは「エラーマップ」を生成できる。これは、映像のどの部分に、どの程度の強さでアーティファクトを知覚したかを、ヒートマップのように可視化するものだ。

これにより、開発者は「品質スコアが低い」という抽象的な情報ではなく、「キャラクターの高速移動時に腕の周りにゴーストが発生している」といった具体的な問題を一目で特定できる。これは、アーティストとエンジニア間のコミュニケーションを劇的に円滑化し、修正作業の効率を飛躍的に向上させるだろう。Unreal EngineプラグインやVulkanフックが用意されており、既存の開発ワークフローへの統合も容易だ。

レビューの未来：客観的指標は「神の視点」となるか？

このツールが普及すれば、これまで主観の領域であったグラフィックス比較レビューの在り方も変わるかもしれない。フレームレートや消費電力のグラフの横に、「CGVQMスコア」が並ぶ日が来る可能性は十分にある。DLSS、FSR、XeSSの三つ巴の戦いにおいて、どの技術がどのシーンで人間の目に優れて見えるのかを、客観的な数値で比較できるようになるかもしれないのだ。

しかし、注意も必要である。筆者は、このスコアが絶対的な「神の視点」になるべきではないと考える。CGVQMはあくまで「アーティファクトの知覚」を測るツールであり、芸術的な表現や全体的なゲーム体験の価値を測るものではない。客観的データを参考にしつつも、最終的な判断は人間の感性が担うという、バランスの取れた評価が求められるだろう。

残された課題と未来への展望

CGVQMは画期的な一歩だが、万能ではない。Intel自身もその限界と今後の方向性を明確に示している。

「完璧な参照元」が必要なフルリファレンスの制約

最大の制約は、CGVQMが「フルリファレンス」メトリクスである点だ。これは、比較対象となる「アーティファクトが一切ない完璧なレンダリング映像」を必要とすることを意味する。開発段階の制御された環境では可能だが、例えばプレイヤーが実際にゲームをプレイしている環境でのリアルタイム評価など、完璧な参照元を用意できないシナリオは多い。

ノーリファレンス化とTransformerへの期待

今後の研究の焦点は、この制約の緩和にある。Intelは、参照映像が不要な「ノーリファレンス化」、人間の注意が向きやすい部分を重視する「視覚的サリエンシー」、動きの滑らかさを評価する「時間的コヒーレンス」、AIが生成したピクセルが意味的に正しいかを問う「セマンティックな正確性」などを組み込むことを目指している。

これに関しては、より高度な文脈理解能力を持つ「Transformer」アーキテクチャの採用が、さらなる性能向上の可能性として示唆されている。もし参照映像なしで、人間の感性に近い評価がリアルタイムで可能になれば、その応用範囲はゲーム開発に留まらず、あらゆる映像分野に爆発的に広がるだろう。

グラフィックスの新たな地平

IntelによるCGVQMの公開は、単なる学術的な貢献や開発コミュニティへの奉仕に留まらない、より深い戦略的意図を内包しているように見える。自社のXeSS技術を客観的に評価し、競合であるNVIDIAのDLSSやAMDのFSRと対等以上に渡り合うために、その性能を磨き上げるための最強のツールを手に入れた、と見ることもできる。

さらに、このツールをオープンソース化し、業界標準としての地位を確立できれば、Intelは今後のグラフィックス技術の「評価軸」そのものにおいて主導権を握ることになるかもしれない。

いずれにせよ、CGVQMは、これまで曖昧な言葉でしか語れなかった「画質」というものに、共通の言語を与えようとする野心的な試みだ。この新たな物差しが、開発者、レビュアー、そして私たちゲーマーを、より豊かで没入感のあるビジュアル体験へと導いてくれることを期待したい。

Sources

GitHub: IntelLabs/cgvqm
Intel: Assessing Video Quality in Real-time Computer Graphics
via Tom’s Hardware: Intel releases new tool to measure gaming image quality — AI tool measures impact of upscalers, frame gen, others; Computer Graphics Video Quality Metric now available on GitHub

この記事はいかがでしたか？

↑ トップへ戻る

// 次に読む

Intel XeSS 2.1がNVIDIA・AMD製GPUに対応：アップスケーリング、フレーム生成、低遅延が利用可能に

Intel、ゲーム画質の「正解」をAIで示す新評価ツール「CGVQM」をオープンソース化：DLSS/FSR戦争に終止符を打つか？