テクノロジーと科学の最新の話題を毎日配信中!!

Google Bolt3D:写真から6秒で3Dシーン生成、従来比300倍の高速化を実現

Y Kobayashi

2025年3月22日

Google ResearchとGoogle DeepMindは、1枚または複数の写真から完全な3Dシーンをわずか6.25秒で生成できる革新的AIシステム「Bolt3D」を発表した。従来の3D生成技術と比較して処理速度が約300倍高速化されており、高品質な3Dコンテンツ制作の大規模な実用化に道を開く可能性がある。

スポンサーリンク

革新的な高速3D生成の仕組み

Bolt3Dの核となる技術は「Latent Diffusion Model(潜在拡散モデル)」と呼ばれる手法だ。研究チームは、画像生成で高い性能を示す2D拡散ネットワークを3D生成に応用することで、処理速度と品質の両立を実現した。

システムは2段階のプロセスで動作する。まず、入力された写真から各ピクセルの3D空間上の位置と色を推定。続いて、それぞれの点の不透明度と空間内での広がり方を決定する。この処理をNVIDIA H100 GPUを用いてわずか6.25秒で完了させる。

「従来の手法では、数百枚の合成画像を生成してから3D表現に最適化するプロセスが必要でした。これには数分から数時間かかっていましたが、Bolt3Dは直接3Dシーンを生成することでこの問題を解決しています」と論文は説明している。

データの保存には「Gaussian splatting(ガウシアンスプラッティング)」と呼ばれる手法を採用。3次元ガウス関数を2Dグリッドに配置し、位置、色、透明度、空間情報を効率的に記録する。この手法により、生成されたシーンをリアルタイムでさまざまな角度から閲覧することが可能になっている。

従来技術との性能比較

研究チームは、Bolt3Dを既存の高速3D生成技術と比較して評価を行った。その結果、単一画像からの生成を行うFlash3Dや、複数画像を用いるDepthSplatといった手法と比較して、画質と幾何学的精度の両面で優れた性能を示した。

特筆すべき点は、Bolt3Dが「見えない部分」を生成する能力だ。従来の手法では、入力画像に写っていない領域はぼかすことしかできなかったが、Bolt3Dは見えない部分に対しても自然で現実的なコンテンツを生成することができる。

「これはBolt3Dが生成的アプローチを採用しているため可能になりました。入力画像だけからは判断できない曖昧な部分についても、トレーニングで学習した知識を基に妥当な推測を行うことができるのです」と論文は指摘している。

最適化ベースの高品質手法であるCAT3Dと比較しても、Bolt3Dは若干の品質低下はあるものの、処理速度は300倍以上高速化されている。

スポンサーリンク

システムの学習と限界

Bolt3Dの性能を支えているのは、約30万の3Dシーンを含む大規模なデータセットだ。研究チームは最先端の3D再構成技術を既存の複数視点画像データセットに適用し、高品質な幾何学的情報と外観データを作成した。

「画像処理向けに事前訓練されたモデルは、無制限の3D空間データの処理には適していないことが分かりました」と研究者たちは説明する。そのため、3D空間データを専門に扱うための新しいオートエンコーダーを開発し、訓練したという。

しかし、現状のBolt3Dにも限界はある。8ピクセル未満の非常に細かいディテール、ガラスなどの透明な材質、高反射面の処理には課題が残る。また、入力写真の撮影方法や、最終的なシーンの規模によっても結果の品質は変動する。

3D生成技術の今後

Bolt3Dの登場は、3Dコンテンツ制作の大規模な普及に向けた重要な一歩となる可能性がある。従来は数分から数時間かかっていた処理がわずか数秒で完了することで、AR/VR、ゲーム開発、建築視覚化など、さまざまな分野での応用が期待できる。

論文では「Bolt3Dのアプローチにより、3D生成のコストが大幅に削減され、3Dコンテンツ制作の大規模な展開が可能になる」と結論付けている。

なお、Stability AIも最近、単一画像から高速に3Dオブジェクトを生成できる「SPAR3D」システムをリリースしているが、Bolt3Dはオブジェクトだけでなく、シーン全体を処理できる点が大きな違いだ。

Googleは現時点でBolt3Dの一般公開予定について明らかにしていないが、プロジェクトのWebサイトでは詳細情報とインタラクティブなデモを閲覧することができる。


論文

参考文献

Follow Me !

\ この記事が気に入ったら是非フォローを! /

フォローする
スポンサーリンク

コメントする