衛星画像だけで中を自由に歩き回れる3D都市を自動生成、新AI「Skyfall-GS」がオープンソースで登場

Y Kobayashi2025年11月3日

約 8 分

衛星画像だけで中を自由に歩き回れる3D都市を自動生成、新AI「Skyfall-GS」がオープンソースで登場

衛星写真から、まるでその場を歩き回れるかのような精緻な3D都市モデルを自動生成することが可能になった。台湾の国立陽明交通大学やイリノイ大学などの研究チームが発表したAIシステム「Skyfall-GS」は、特別な車両や高価な3Dスキャナを一切使わず、一般に入手可能な衛星画像のみを基に、リアルタイムで探索可能な3D都市を構築するのだ。この革新的な技術は、ゲーム開発から都市計画、自動運転シミュレーションまで、あらゆる分野に大きな変化をもたらしそうだ。

なぜ「衛星写真だけ」での3D化は困難だったのか

空から見下ろした衛星写真から、地上レベルのリアルな3D空間を再構築することは、技術的に極めて難易度の高い課題であった。その理由は、衛星写真が持つ本質的な限界にある。

第一に、衛星写真は基本的に真上に近い角度から撮影されるため、建物の屋根は捉えられても、壁面（ファサード）や地上の細かな構造物はほとんど写らない。わずかに斜めから撮影された画像があったとしても、得られる視差（parallax）はごく僅かで、建物の正確な形状や奥行きを復元するには情報が圧倒的に不足していた。これまでの技術で無理に3D化を試みると、建物の側面はぼやけて歪み、まるで引き伸ばされたテクスチャを貼り付けただけのような、不自然な結果しか得られなかった。

第二に、CityDreamerやGaussianCityといった従来の都市生成AIは、セマンティックマップ（土地の用途を示した地図）やハイトフィールド（高さ情報）といった追加のデータに依存しており、入力データに対する強い仮定に基づいていた。そのため、生成される建物は形状が過度に単純化されたり、現実感のないテクスチャになったりと、特定のデータセットに過剰適合する傾向があった。

これらの根深い課題に対し、Skyfall-GSは全く新しいアプローチでブレークスルーを実現した。

「3DGS」と「拡散モデル」の融合が生んだ革新的手法

Skyfall-GSの核心は、性質の異なる2つの先進的なAI技術を巧みに組み合わせた点にある。一つはシーンの3次元的な骨格を高速に捉える「3D Gaussian Splatting (3DGS)」、もう一つは画像生成AIの根幹をなす「拡散モデル」だ。

骨格を捉える「3D Gaussian Splatting (3DGS)」

3DGSは、3D空間を「ガウシアン」と呼ばれる、色と透明度を持つ無数の光の点の集合として表現する技術だ。ポリゴンモデルのように面の集合で形状を定義するのではなく、点描のようにシーンを構築することで、非常に複雑な形状や質感をリアルに、かつ高速にレンダリングできる。Skyfall-GSはまず、複数枚の衛星写真からこの3DGSを用いて、都市の全体的な構造、つまり「粗い骨格」を再構築する。

見えない部分を”補完”する「拡散モデル」

しかし、前述の通り衛星写真だけでは建物の側面などの情報は欠落している。ここで登場するのが、Stable Diffusionなどの画像生成AIで知られる「拡散モデル」だ。Skyfall-GSは、3DGSで構築した不完全な3Dモデルから様々な角度の画像をレンダリングし、それを拡散モデルに入力する。

拡散モデルは、まるで腕利きの画家が未完成の絵画にディテールを描き加えるように、情報が欠落している部分（例えば、建物のファサードや地上の植生など）に、もっともらしいテクスチャや形状を”幻出”させる。このプロセスは、テキストプロンプトによって制御される。例えば、「歪みやぼやけのある都市の衛星画像」というプロンプトで入力画像を説明し、「シャープな建物、滑らかなエッジ、自然な光を持つ鮮明な衛星画像」というターゲットプロンプトを指示することで、AIはアーティファクトを除去し、リアルな詳細を描き加えていく。

天から降りる学習戦略「Skyfall」

この技術の独創性を際立たせているのが、その名の由来ともなった「Skyfall」と呼ばれる学習戦略だ。これは「カリキュラム学習」の一種で、AIにあえて簡単な問題から始めさせ、段階的に難しい問題に取り組ませる手法である。

Skyfall-GSでは、仮想カメラの視点を最初は上空85度といった高い角度に設定する。この角度では衛星写真の情報と近いため、比較的容易に高品質な画像を生成できる。そして、この生成・改良プロセスを5段階にわたって繰り返し、仮想カメラの角度を徐々に45度まで下げていく。まるでカメラが空から地上へと降下（Skyfall）してくるかのように、反復のたびに地上レベルのディテールが洗練され、幾何学的な一貫性を保ちながら、写真のようにリアルな都市景観が完成していくのだ。

圧倒的な品質と速度の両立

理論だけでなく、Skyfall-GSが生成する3Dモデルの品質と性能は、従来技術を凌駕している。

ユーザー評価で97%が支持したリアリティ

研究チームは、フロリダ州ジャクソンビルとニューヨーク市の実際の衛星画像を使い、生成された3Dモデルの品質を評価した。その結果は驚くべきものだった。89人の参加者を対象としたユーザー調査において、Skyfall-GSは、従来の他の手法と比較して、幾何学的な正確さと全体的な品質の両方で、実に97%のケースで「最も優れている」と評価された。

先行研究であるSat-NeRFやnaive 3DGSがぼやけたファサードしか生成できなかったのに対し、Skyfall-GSは建物の窓枠や壁の質感まで鮮明に再現している。また、CityDreamerなどが単純な箱形の建物を生成するに留まったのに対し、Skyfall-GSは複雑な構造を持つ建築物も正確にモデル化することに成功した。

MacBook Airでも動作する驚異的なレンダリング速度

品質以上に衝撃的なのが、その動作速度だ。Skyfall-GSは、一般的なグラフィックボード（NVIDIA T4）で毎秒11フレーム（FPS）、最新のコンシューマー向けノートPCであるMacBook Air（M2）では毎秒40フレームという、リアルタイム描画に十分な速度を達成している。

比較として、先行研究のCityDreamerは、より高性能なサーバー向けGPU（NVIDIA A100）を使用しても毎秒わずか0.18フレームしか達成できなかった。 Skyfall-GSは、高価なハードウェアを必要とせず、より身近なデバイスで高品質な3D都市をリアルタイムで体験できる道を開いたのである。

ゲーム、メタバース、自動運転を一変させる可能性

Skyfall-GSはオープンソース（Apache-2.0ライセンス）として公開されており、誰でもそのコードにアクセスできる。このことは、その応用範囲が爆発的に広がることを意味する。

ゲーム・エンターテインメント: ゲーム開発者は、現実の都市をモデルにした広大なオープンワールド環境を、従来とは比較にならないほど低コストかつ短時間で制作可能になる。AR/VRコンテンツやメタバース空間の構築にも、強力なツールとなるだろう。
映画・映像制作: 複雑な都市のシーンを再現するためのデジタル背景（VFX）制作が効率化され、クリエイターはより創造的な作業に集中できるようになる。
ロボティクス・自動運転: 自動運転車やドローンが現実世界をナビゲートするための、高精度なシミュレーション環境を安価に構築できる。これにより、開発とテストのサイクルが大幅に加速することが期待される。

Maxar社のWorldView-3のような高解像度衛星は、1日に約68万平方キロメートルもの領域を撮影している。この膨大なデータとSkyfall-GSを組み合わせれば、地球上のあらゆる都市を網羅する、大規模なデジタルツインの自動構築も夢物語ではないだろう。

残された課題と未来への展望

もちろん、Skyfall-GSはまだ発展途上の技術であり、課題も残されている。現状では、特に拡散モデルによるリファインメント工程ではかなりの計算資源が必要だ。また、地上に極めて近い視点、いわゆるストリートレベルでの視点では、テクスチャがやや平滑化されすぎる傾向が見られる。

しかし、これらの課題が技術の可能性を損なうものではないと考える。むしろ、オープンソースとして公開されたことで、世界中の開発者コミュニティによる改良が進み、パフォーマンスの最適化や品質向上が急速に進むことは間違いないだろう。

衛星写真という普遍的なデータソースから、これほど高品質な3D世界を紡ぎ出す技術が登場した意味は大きい。Skyfall-GSは単なる一つの研究成果に留まらず、我々がデジタル空間と物理空間を認識し、利用する方法そのものを根底から変える、まさに「ゲームチェンジャー」と呼ぶにふさわしい技術ではないだろうか。

論文