「より大きければより良い」というAIの「スケーリング則」は永遠に改善を続けられるのか？歴史が示すのは、確信は持てないということだ

OpenAIの最高経営責任者であるSam Altman――2022年のChatGPT立ち上げで加速した人工知能(AI)ブームにおいて、おそらく最も著名な顔――は、スケーリング則を愛している。

AIモデルの規模とその能力を結びつけるこれらの広く賞賛されている経験則は、AI業界が強力なコンピュータチップを買い占め、想像を絶するほど大規模なデータセンターを建設し、閉鎖された原子力発電所を再開するという猛烈な勢いの多くを支えている。

Altmanが今年初めのブログ投稿で論じたように、その考え方は、AIモデルの「知能」は「それを訓練し実行するために使用されるリソースの対数にほぼ等しい」というものである――つまり、データと計算能力の規模を指数関数的に増加させることで、着実により良いパフォーマンスを生み出すことができるということだ。

2020年に最初に観察され、2022年にさらに洗練された大規模言語モデル(LLM)のスケーリング則は、実験データのグラフ上に線を引くことから導き出される。エンジニアにとって、それらは次のモデルをどれだけ大きく構築すべきか、どのようなパフォーマンス向上が期待できるかを教えてくれる単純な公式を提供する。

AIモデルがますます大きくなるにつれて、スケーリング則はスケーリングし続けるのだろうか?AI企業は数千億ドルを賭けてそうなると信じているが、歴史が示唆するのは、それが必ずしもそれほど単純ではないということだ。

スケーリング則はAIだけのものではない

スケーリング則は素晴らしいものとなり得る。例えば、現代の空気力学はそれらの上に構築されている。

Buckingham π定理と呼ばれる優雅な数学を使用して、エンジニアは、いくつかの重要な数値が一致することを確認することで、風洞や試験水槽の小型モデルを実物大の飛行機や船と比較する方法を発見した。

これらのスケーリングの考え方は、飛行または浮遊するほぼすべてのもの、さらには産業用ファンやポンプの設計に反映されている。

もう一つの有名なスケーリングの考え方は、シリコンチップ革命の好況期を支えた。Moore’s law――マイクロチップ上のトランジスタと呼ばれる微小なスイッチの数が2年ごとに倍増するという考え方――は、設計者が今日私たちが持っている小型で強力なコンピューティング技術を生み出すのに役立った。

しかし、落とし穴がある。すべての「スケーリング則」が自然法則であるわけではない。一部は純粋に数学的であり、無期限に成り立つ可能性がある。他のものは、それらが測定または設計された状況から離れすぎるまでは美しく機能する、データに当てはめられた線にすぎない。

スケーリング則が破綻するとき

歴史は、破綻したスケーリング則の痛ましい教訓で溢れている。古典的な例は、1940年のTacoma Narrows Bridgeの崩壊である。

この橋は、より小さな橋でうまくいったものを、より長くより細いものにスケールアップすることで設計された。エンジニアは、同じスケーリングの議論が成り立つと想定した。すなわち、剛性と橋の長さの特定の比率が以前機能したなら、再び機能するはずだと。

しかし代わりに、中程度の風が空力弾性フラッタと呼ばれる予期しない不安定性を引き起こした。橋のデッキは自壊し、開通からわずか4か月後に崩壊した。

同様に、マイクロチップ製造の「法則」でさえ、有効期限があった。数十年間、Moore’s law(トランジスタ数が数年ごとに倍増)とDennardスケーリング(より多くの小型トランジスタが同じ電力量を使用しながらより速く動作する)は、チップ設計と業界のロードマップにとって驚くほど信頼できる指針であった。

しかし、トランジスタがナノメートルで測定されるほど小さくなると、これらの整然としたスケーリング則は、厳しい物理的限界と衝突し始めた。

トランジスタゲートがわずか数原子の厚さにまで縮小すると、電流が漏れ始め、予測不可能に動作するようになった。動作電圧もまた、バックグラウンドノイズに埋もれることなく削減できなくなった。

最終的に、縮小はもはや前進する道ではなくなった。チップは依然としてより強力になっているが、今では単なるスケールダウンではなく、新しい設計によってである。

自然法則か経験則か?

Altmanが称賛する言語モデルのスケーリング曲線は現実のものであり、これまでのところ非常に有用であった。

それらは、十分なデータと計算能力を与えれば、モデルがより良くなり続けることを研究者に教えた。また、それらは初期のシステムが根本的に制限されていなかったことを示した――単に十分なリソースが投入されていなかっただけだ。

しかし、これらは間違いなくデータに当てはめられた曲線である。それらは空気力学で使用される導出された数学的スケーリング則よりも、マイクロチップ設計で使用される有用な経験則に近い――そしてそれは、それらがおそらく永遠には機能しないことを意味する。

言語モデルのスケーリング則は、訓練用の高品質データの利用可能性の限界、AIに新規のタスクに対処させることの難しさ、さらには安全性の制約やデータセンターと電力網を構築することの経済的困難といった現実世界の問題を必ずしもエンコードしていない。「知能がスケールする」ことを永遠に保証する自然法則や定理は存在しない。

曲線への投資

これまでのところ、AIのスケーリング曲線はかなり滑らかに見える――しかし、財務曲線は別の話である。

Deutsche Bankは最近、予測されるAI収益と、現在の成長を維持するために必要なチップ、データセンター、電力への投資との間の8,000億米ドルの不一致というBain Capitalの推定に基づき、AIの「資金ギャップ」について警告した。

JP Morganは、より広範なAI部門が、計画されているAIインフラの構築に対してわずか10%の収益を得るためだけに、年間約6,500億米ドルの収益が必要になる可能性があると推定している。

私たちはまだ、どの種類の法則が最先端のLLMを支配しているかを解明している最中である。現実は現在のスケーリング則に従い続けるかもしれない。あるいは、新しいボトルネック――データ、エネルギー、ユーザーの支払い意欲――が曲線を曲げるかもしれない。

Altmanの賭けは、LLMスケーリング則が継続するというものである。もしそうであれば、利益が予測可能であるため、膨大な量の計算能力を構築する価値があるかもしれない。一方で、銀行の高まる不安は、一部のスケーリングストーリーがTacoma Narrowsのようになり得るという警告である。つまり、ある文脈では美しい曲線が、次の文脈では厄介な驚きを隠しているのだ。

本記事は、グリフィス大学応用数学・物理学講師 Nathan Garland氏によって執筆され、The Conversationに掲載された記事「Can bigger-is-better ‘scaling laws’ keep AI improving forever? History says we can’t be too sure」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。