AppleのAI研究チームが、最新の大規模言語モデル(LLM)の数学的推論能力に関する衝撃的な研究結果を発表した。この研究は、OpenAIの最新モデル「o1」を含む、現在最先端とされるAIモデルの能力に重大な疑問を投げかけている。
AIの数学的推論能力に疑問符:些細な変更で大幅な性能低下
研究チームは、既存の数学的推論データセットGSM8Kを基に、「GSM-Symbolic」という新たな評価ツールを開発した。GSM-Symbolicの特徴は、シンボリックテンプレートを導入し、問題の構造を保ちながら数値や名前を柔軟に変更できる点にある。さらに、問題の複雑さを段階的に変更する機能や、問題に関係のない情報を含める機能も備えている。これにより、AIモデルの数学的推論能力をこれまでにない精度で評価することが可能になった。
論文の主著者であるIman Mirzadeh氏は、「GSM-Symbolicは、AIモデルの数学的推論能力を多角的に評価し、その真の限界を理解するための画期的なツールです」と説明している。この新しいツールは、AIの推論能力の本質に迫る重要な役割を果たすことが期待されている。
研究者らは、Llama、Phi、Gemma、Mistralなどのオープンソースモデルに加え、OpenAIの最新モデルを含む独自モデルをテストした。arXivで公開された結果によると、OpenAIのGPT-4oやo1を含む最先端モデルでさえ、真の論理的推論を行っているのではなく、単にパターンを模倣しているに過ぎないことが示唆された。
まず、AIモデルの性能に著しい不安定性が見られた。同じ問題構造でも、数値や名前を変えるだけで正答率が大きく変動したのだ。例えば、Llama-8Bモデルの正答率は70%から80%の間で変動し、Phi-3モデルに至っては75%から90%という大きな幅で変動した。
さらに、問題の難易度をわずかに上げただけで、モデルの性能が大幅に低下することも判明した。研究チームは、GSM-Symbolic-Minus-1(GSM-M1)からGSM-Symbolic-Plus-2(GSM-P2)まで段階的に難易度を上げる実験を行ったが、すべてのモデルで性能の低下が確認された。例えば、Phi-3.5-miniモデルの正答率はGSM-M1で87.6%だったのに対し、GSM-P2では44.8%まで低下した。
Apple研究チームの一員であるMehrdad Farajtabar氏は、「小学生の数学テストの点数が、名前を変えただけで約10%も変動するでしょうか?」と皮肉を込めて問いかけている。Farajtabar氏によれば、この難易度の上昇に対応するには「指数関数的に多くのデータ」が必要になる可能性があるという。
しかし、最も衝撃的だったのは、GSM-NoOp実験の結果だ。この実験では、問題に解答に無関係な情報を1文追加しただけで、すべてのモデルの性能が劇的に低下した。最新のo1-previewモデルでさえ、性能が96%から77.4%に低下し、Phi-3-miniモデルに至っては85%から18%という驚異的な低下を示した。
研究チームが用いた具体例を見てみよう。「Oliverは金曜日に44個のキウイを摘みました。土曜日には58個摘みました。日曜日には金曜日の2倍の数を摘みましたが、そのうち5個は平均よりも小さかったです。Oliverは合計で何個のキウイを持っていますか?」という問題に対し、人間なら最後の「5個は平均よりも小さかった」という情報は無関係だと即座に判断できる。しかし、テストされたAIモデルの多くは、この情報に惑わされて誤った計算を行った。
例えば、o1-miniモデルは「日曜日の小さいキウイ5個を引く必要があります:88(日曜日のキウイ)- 5(小さいキウイ)= 83個」という誤った推論を示した。研究チームのKeivan Alizadeh氏は、「人間の小学生なら、問題文に無関係な情報が追加されても正しく解答できるでしょう。しかし、最新のAIモデルでさえ、このような些細な変更に対して脆弱性を示しています」と指摘している。
AIの「推論」の正体:高度なパターンマッチングの限界
この研究結果は、現在のAIモデルが行っている「推論」が、実際には訓練データに基づいた高度なパターンマッチングに過ぎない可能性を強く示唆している。Farajtabarは「言語モデルに形式的推論の証拠は一切見つからなかった」と結論づけ、「彼らの行動は、洗練されたパターンマッチングによってよりよく説明できる」と述べている。データ、パラメータ、計算能力の拡大は、より優れたパターンマッチャーを生み出すかもしれないが、「必ずしもより優れた推論者を生み出すわけではない」と警告し、「現在のLLMは真の論理的推論能力を持っていない。代わりに、訓練データで観察された推論のステップを複製しようとしている」と論文では述べている。。
この仮説を裏付ける証拠として、研究チームは問題の表面的な変更に対するAIの敏感さを挙げている。数値や名前の変更だけで性能が大きく変動する事実は、AIが問題の本質を理解しているのではなく、表面的なパターンに依存していることを示唆している。
また、問題の難易度がわずかに上がっただけで性能が大幅に低下する現象は、AIが柔軟な推論を行っているのではなく、既知のパターンに当てはめようとしていることを示している。さらに、解答に無関係な情報を追加しただけで性能が低下する現象は、AIが問題の本質を理解せず、与えられた全ての情報を機械的に処理しようとしていることを示唆している。
研究チームのHooman Shahrokhi氏は、「現在のAIモデルは、訓練データに含まれる数学的パターンを巧みに模倣することはできます。しかし、真の意味で数学を『理解』し、柔軟に『推論』する能力は持ち合わせていないのです」と説明している。この見解は、現在のAI技術の限界を鋭く指摘するものだ。
この研究は、LLMのベンチマークの妥当性にも疑問を投げかけている。研究者らによれば、人気の高いGSM8K数学ベンチマークでの大幅な成績向上(約3年前のGPT-3の35%から現在のモデルの最大95%まで)は、テスト例が訓練データに含まれていることが原因である可能性がある。
AIの「推論」能力の真の姿:研究者間の論争
この研究結果は、AIコミュニティに大きな波紋を投げかけている。AppleとOpenAIという2つの主要なAI研究機関が、正反対の立場をとっているのだ。
OpenAIは、o1を最初の「推論モデル(レベル2)」と位置づけ、論理的エージェント(レベル3)の基礎を築くものだと主張している。彼らは新たなベンチマークを公開し、o1が機械学習エンジニアリングタスクを解決できることを示した。
一方、Appleの研究チームは、現在のAIモデルには真の推論能力がないと主張し、GSM-Symbolicの結果を基に、AIの推論能力の限界を指摘している。この見解の相違は、AIの能力に関する根本的な解釈の違いを反映している。
AI研究者のFrançois Chollet氏は、この研究を「証拠の山にさらに1つ加わったもの」と評価し、「LLMが論理を扱えないという見方は2023年初頭には極めて異端的だったが、今や自明の常識になりつつある」と述べている。
一方で、OpenAIの研究者は、適切なプロンプトエンジニアリングによって、これらの問題点を克服できる可能性を指摘している。しかし、Apple研究チームのFarajtabar氏は、「単純な変更に対しては、プロンプトの改善で対応できるかもしれません。しかし、複雑な外乱に対しては、指数関数的に多くの文脈データが必要になる可能性があります」と反論している。
この研究が示唆する今後のAI開発の方向性
AppleのAI研究チームによる今回の研究は、現在のAI技術の限界と可能性を鮮明に浮き彫りにしている。この結果は、今後のAI開発に重要な示唆を与えている。
まず、真の推論能力の追求が必要不可欠だ。単なるパターンマッチングを超えた、柔軟な推論能力を持つAIの開発が求められている。研究チームは、「より堅牢で一般化可能な問題解決スキルを実現するAIモデルの開発」の重要性を強調している。
また、AIモデルの評価方法の改善も急務だ。GSM-Symbolicのような、より厳密で多角的な評価ツールの開発と活用が必要とされている。AIモデルの真の能力を正確に把握するための新たなベンチマークの創出も重要な課題だ。
さらに、AI倫理とリスク管理の重要性も浮き彫りになった。AIの限界を正確に理解し、適切に活用するための指針作りが急務だ。特に教育、医療、意思決定システムなど、重要な分野でのAI活用には慎重なアプローチが必要とされる。
最後に、学際的アプローチの必要性も指摘されている。AI開発に、数学、認知科学、哲学など多様な分野の知見を取り入れる必要がある。人間の推論過程の理解を深め、それをAI開発に活かすアプローチの重要性が増している。
論文
- arXiv: GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
参考文献
- TechCrunch: Researchers question AI’s ‘reasoning’ ability as models stumble on math problems with trivial changes
研究の要旨
最近の大規模言語モデル(LLM)の進歩により、特に数学における形式的推論能力に注目が集まっている。 GSM8Kベンチマークは、小学生レベルの問題に対するモデルの数学的推論を評価するために広く使用されている。 近年、GSM8KにおけるLLMの性能は著しく向上しているが、LLMの数学的推論能力が真に進歩したかどうかは依然として不明であり、報告された測定基準の信頼性に疑問が投げかけられている。 これらの懸念に対処するため、我々はいくつかのSOTAオープンモデルおよびクローズドモデルについて大規模な研究を実施する。 既存の評価の限界を克服するため、多様な質問セットを生成できる記号テンプレートから作成された改良型ベンチマークであるGSM-Symbolicを導入する。 GSM-Symbolicは、より制御可能な評価を可能にし、このhttpの推論能力を測定するための重要な洞察と、より信頼性の高い測定基準を提供する。 URLの調査結果は、LLMが同じ質問の異なるインスタンスに応答する際に顕著なばらつきを示すことを明らかにした。 具体的には、GSM-Symbolicベンチマークにおいて、質問の数値のみが変更された場合、全てのモデルの性能が低下する。 さらに、これらのモデルにおける数学的推論のもろさを調査し、問題中の節の数が増えるにつれて性能が著しく低下することを示す。 現在のLLMは真の論理的推論を行うことができず、訓練データから推論ステップを複製しているため、このような低下が起こるのだと仮説を立てる。 質問に関連すると思われる節を1つ追加すると、その節が最終的な答えに必要な推論の連鎖に寄与していないにもかかわらず、すべての最先端モデルで性能が大幅に低下する(最大65%)。 全体として、我々の研究は、数学的推論におけるLLMの能力と限界について、より微妙な理解を提供する。
コメント