テクノロジーと科学の最新の話題を毎日配信中!!

AIによる思考の限界 – 最新研究が暴いた人間との決定的な違い

Y Kobayashi

2025年4月2日

最新の研究により、GPT-4のような高度なAI(人工知能)と人間の思考プロセスには、これまで考えられていた以上に大きな違いがある可能性が示された。特に、人間にとっては基本的な「類推推論」において、AIは特定の条件下では高い能力を発揮するものの、状況が少し変わると途端に対応できなくなる「脆さ」を露呈。これはAIが真の意味で抽象的な概念を理解しているわけではない可能性を示唆しており、AI技術の社会実装において重要な示唆を与えるものである。

スポンサーリンク

GPTモデルの類推能力、変化に弱いことが判明

アムステルダム大学(University of Amsterdam)とサンタフェ研究所(Santa Fe Institute)の研究者、Martha Lewis氏とMelanie Mitchell氏は、人間とGPTモデル(GPT-3、GPT-3.5、GPT-4を含む)の類推推論能力の「頑健性(Robustness)」を比較検証する研究を行った。研究成果は学術誌『Transactions on Machine Learning Research』に掲載された。

類推推論(Analogical Reasoning)とは、二つの異なる事柄の間にある構造的・関係的な類似性を見つけ出し、それに基づいて推論する能力である。「カップとコーヒーの関係は、スープと何の関係と同じか?(答え:ボウル)」といった問題が典型例であり、人間が世界を理解し、意思決定を行う上で極めて重要な思考プロセスの一つとされる。

これまでの研究では、GPTモデルが様々なベンチマークテスト、特に類推推論を含むテストで高い性能を示すことが報告されていた。しかし、Lewis氏らは、AIが本当に人間のような柔軟で汎用的な推論を行っているのか、それとも単に訓練データに含まれる表面的なパターンを模倣しているだけなのか、という疑問に答えるため、より踏み込んだ検証を行った。
研究チームは、人間とGPTモデルに対し、以下の3種類の類推タスクとその「変種」を解かせ、その性能を比較した。

  • 文字配列(Letter Sequences): 文字列のパターンを認識し、法則に従って次の文字列を生成する。(例: abcdがabceになるなら、ijklは何になるか?)
  • 数字行列(Digit Matrices): 数字の並びの規則性を見つけ、欠けている数字を特定する。(例: Raven’s Progressive Matricesに似た形式)
  • 物語の類推(Story Analogies): 提示された基準となる物語に対し、二つの選択肢のうちどちらがより構造的に類似しているかを判断する。

重要なのは、標準的な問題だけでなく、その問題の形式や条件を微妙に変更した「変種問題」を用意した点である。例えば、文字配列問題では通常とは異なる架空のアルファベット順序や、アルファベット以外の記号を使用。数字行列問題では、回答すべき空白の位置を標準の右下からランダムな位置に変更したり、数字を記号に置き換えたりした。物語の類推では、回答の選択肢の提示順序を変えたり、物語の核心的な意味を変えずに表現を言い換えたりした。

研究者らは、「真に類推を理解しているシステムであれば、これらの変種問題に対しても高い性能を維持するはずだ」と指摘する。つまり、未知の状況や条件の変化にも対応できる「頑健性」が重要となる。
実験の結果、以下の点が明らかになった。
標準問題: GPTモデルは多くの標準的な類推問題で高い性能を示した。これは先行研究の結果とも一致する。
変種問題での性能低下: しかし、問題に変種を加えると、GPTモデルの性能は多くの場合、著しく低下した。
文字配列: 架空のアルファベットや記号を用いた場合、特に単純な問題(ゼロショット一般化)において、GPTモデルの性能は大幅に低下。一方、人間は比較的高い性能を維持した。Lewis氏が挙げた例では、「abcd」が「abce」なら 「ijkl」は何になる?という問題(正答 ijkm)はGPTも得意だが、「abbcd」が「abcd」(重複削除)なら「ijkkl」は何になる?という問題(正答 ijkl)はGPT-4が苦手とする傾向があった。
数字行列: 回答すべき空白の位置を変更しただけで、GPTモデルの性能は劇的に低下。人間はこの変更に全く影響されなかった。
物語: GPT-4は、正解の選択肢が最初に提示された場合に正答率が高くなる「回答順序効果」の影響を強く受けた。人間にはこのバイアスは見られなかった。また、物語の重要な要素を言い換えた場合、GPT-4は人間よりも性能が低下する傾向があり、物語の深層的な因果関係よりも表層的な言葉の類似性に依存している可能性が示唆された。
人間の頑健性: 対照的に、人間はほとんどの変種問題に対して高い性能を維持し、思考の柔軟性と頑健性を示した(ただし、非常に複雑な問題では人間もAIも苦戦した)。
これらの結果から、Lewis氏とMitchell氏は、「AIモデルはしばしば人間よりも柔軟性に欠ける推論を行い、その推論は真の抽象的理解というよりも、パターンマッチングに基づいている可能性が高い」と結論付けている。
パターン認識を超えられないAI?社会への影響と今後の課題
今回の研究結果は、AIが人間と同じように「考えている」という一般的な仮説に疑問を投げかけるものだ。Lewis氏がLive Scienceに語ったように、「我々人間は特定のパターンからより一般的なルールへと抽象化できるが、LLM(大規模言語モデル)にはその能力が欠けている。彼らはパターンの特定とマッチングは得意だが、それらのパターンから一般化することは苦手だ」という。
AIは大量の訓練データからパターンを学習するが、パターンマッチング能力が高いことが、必ずしも人間のような深い理解や柔軟な思考能力を意味するわけではない。この「頑健性の欠如」は、AIを実社会の重要な領域で利用する際に、深刻な問題を引き起こす可能性がある。
例えば、法律分野でのAI活用が進んでいるが、判例調査や分析、量刑推奨などにAIが用いられるケースがあるが、類推能力の頑健性が低いAIは、過去の判例がわずかに異なる新しいケースにどのように適用されるべきかを正しく認識できない恐れがある。同様の懸念は、個々の生徒の状況に応じた対応が求められる教育分野や、複雑な症例に対する診断・治療方針の判断が必要となる医療分野などでも存在する。
研究者らは、「AIモデルが驚異的な能力を発揮することは確かだが、それは彼らが自分たちのしていることを本当に理解していることを意味しない」と強調する。「AIシステムを評価する際には、単なる正答率(Accuracy)だけでなく、その認知能力の頑健性(Robustness)についても慎重に評価することが極めて重要だ」と警鐘を鳴らしている。
AIは間違いなく強力なツールであり、今後さらに発展していくだろう。しかし、今回の研究は、AIがまだ人間の思考や推論、特に未知の状況に対応する柔軟性や一般化能力において、根本的な限界を抱えていることを明確に示した。AIを社会に導入していく上で、その能力と限界を正しく理解し、人間の判断や監督と適切に組み合わせていくことの重要性が、改めて浮き彫りになったと言えるだろう。

Follow Me !

\ この記事が気に入ったら是非フォローを! /

フォローする
スポンサーリンク

コメントする