生成AI技術の最前線を行くOpenAIのSoraなど、最新の動画生成AIモデルが物理法則の基本的な理解を欠いていることが、ByteDanceとTsinghua大学の研究チームによる調査で明らかになった。研究では、シンプルな物体の動きですら正確に予測できないケースが多々あることが示されている。
基本的な物理法則の理解も困難
研究チームは、直線運動、弾性衝突、放物運動という3つの基本的な物理シナリオを用いて検証を実施。これらは高校物理の初歩レベルの現象だが、AIモデルの理解度を正確に定量評価できる利点がある。研究では各シナリオについて、「分布内」「分布外」「組み合わせ的な一般化」という3つの観点から評価を行った。
分布内(訓練データと類似した状況)では、物体の大きさや速度が訓練範囲内であれば、誤差0.01-0.03程度の高精度な予測が可能だった。しかし分布外では誤差が1桁以上増加し、0.3-0.5程度まで悪化。さらに物理法則に明らかに反する予測を生成する事例も見られた。
特に衝撃的だったのは、分布外での予測の質的な誤りだ。例えば、高速な物体(秒速4単位)で訓練したモデルに低速(秒速1単位)の予測をさせると、物体が突然方向を変えたり、速度が不自然に変化したりする現象が観察された。研究者のBingyi Kang氏は「このような振る舞いは、モデルが物理法則を本質的に理解しているのではなく、訓練データの表面的なパターンを模倣しているだけであることを示している」と指摘する。
スケーリングの限界が露呈
研究チームは、従来のAI開発で成功を収めてきた「スケーリング」アプローチの限界を明確に示すデータを得た。実験では、モデルサイズと訓練データ量という2つの重要な軸でスケーリングの効果を詳細に検証している。
モデルサイズについては、最小の22Mパラメータから中規模の89.5M、大規模な310Mパラメータまで段階的に拡大して比較を行った。訓練データと類似した状況下では、モデルの大規模化に伴って予測精度が着実に向上し、最大モデルでは誤差0.012という高精度を達成。しかし、訓練データの範囲を外れた状況では、モデルサイズを14倍に拡大しても予測誤差は0.427前後に留まり、有意な改善は見られなかった。
訓練データのスケーリングについても同様の傾向が確認された。データ量を3万サンプルから300万サンプルへと100倍に増加させた場合、既知パターンでの予測精度は向上したものの、未知の状況における予測誤差は0.433から0.358へとわずかな改善に留まった。さらに興味深いことに、一部のケースではデータ量の増加が逆効果となり、予測誤差が増大する現象も観察された。
特に注目すべきは、物体の衝突シナリオにおける結果だ。訓練データの範囲内で2つの物体が衝突する場合、運動量とエネルギーの保存則に従った正確な予測が可能だった。しかし、物体の質量や速度が訓練範囲を外れると、基本的な保存則すら満たさない非物理的な予測を生成。この傾向は、データ量やモデルサイズの増加では改善されなかった。
Xenospectrum’s Take
この研究は、現在の動画生成AIの「知能」が、実は巧妙な模倣に過ぎないことを如実に示している。特筆すべきは、AIの発展における「スケーリング仮説」—より大きなモデルとより多くのデータで性能が向上する—に重要な例外があることが明確になった点だ。
Metaの人工知能研究部門責任者であるYann LeCun氏が「ピクセルの生成による世界予測というアプローチは無駄であり、失敗する運命にある」と指摘するように、現在の動画生成AIの発展アプローチそのものの再考が必要な段階に来ているのかもしれない。
皮肉なことに、人間の幼児でさえ直感的に理解できる物理法則を、最先端のAIが理解できないという現実は、人工知能と自然知能の間に依然として大きな隔たりがあることを示している。真の世界モデルの実現には、単なるパターンマッチングを超えた、物理法則の本質的な理解メカニズムの実装が必要だろう。
論文
参考文献
コメント