人工知能(AI)の進化において、我々は長らく一つの指標を追い求めてきた。それは「いかに人間よりも賢く、論理的で、正確になれるか」という指標である。チェスや囲碁において人間を凌駕し、複雑な計算を瞬時にこなすAIの姿は、その進化の正当性を証明してきた。しかし、ロシアの国立研究大学経済高等学院(HSE University)が発表した最新の研究は、その「賢さ」こそが、人間との社会的相互作用において致命的な弱点になり得ることを示唆している。

「AIは、人間の合理性を過大評価している」

これが、HSE大学の研究チームが導き出した衝撃的な結論だ。経済学における古典的なゲーム「ケインズ美人投票(数字当てゲーム)」を用いた実験において、ChatGPT-4oやClaude-Sonnet-4といった最先端の大規模言語モデル(LLM)は、皮肉にも「論理的に正しすぎる」がゆえに、論理的欠陥を抱える人間相手の勝負で敗北する傾向にあることが明らかになったのだ。

AD

ケインズ美人投票:裏の裏を読む心理戦

なぜ「賢い」AIが人間に勝てないのか。そのメカニズムを理解するためには、まず実験に用いられた「ケインズ美人投票」または「数字当てゲーム(Guess the Number)」のルールと、その背後にある数理的な構造を理解する必要がある。

単なる運ゲーではない「読み合い」の深淵

このゲームのルールは極めてシンプルである。

  1. 参加者: 複数のプレイヤー(例:18人)。
  2. アクション: 各プレイヤーは0から100までの整数を一つ選ぶ。
  3. 勝利条件: 全員が選んだ数字の「平均値」に、特定の係数 $p$(例:\(p=2/3\))を掛けた値に、最も近い数字を選んだ人が勝者となる。

例えば、全員がランダムに数字を選んだと仮定しよう。0から100の中央値である50が平均になると予想される。勝つためには、その\(2/3\)である「33」を選ぶのが合理的だ。

しかし、ここで思考は止まらない。「他の参加者も同じように考え、33を選んでくるだろう」と予測するならば、平均値は33になる。したがって、勝つためには33の\(2/3\)である「22」を選ぶべきだ。

さらに思考を進めると、「皆が22を選ぶなら、私はその\(2/3\)の約15を…」となる。この推論(反復支配戦略の消去)を無限に繰り返していくと、最終的に全員が選ぶべき数字は「0」に収束する。これがゲーム理論における「ナッシュ均衡」である。

勝利の方程式は「他者の愚かさ」を測ること

理論上の正解(ナッシュ均衡)は「0」である。しかし、現実の人間同士でこのゲームを行うと、「0」を選んだ人が勝つことは滅多にない。なぜなら、参加者全員が無限の思考ステップを踏めるわけではなく、また全員がゲーム理論の専門家でもないからだ。

  • レベル0の思考: 何も考えずにランダムに選ぶ(平均50を形成)。
  • レベル1の思考: 平均が50だと思って33を選ぶ。
  • レベル2の思考: 他人がレベル1(33)だと思って22を選ぶ。

現実の実験(Nagel, 1995など)では、人間の平均的な回答は「20〜35」の範囲に収まることが多い。つまり、このゲームで勝つために必要なのは、「数学的な正解(0)」を導き出す能力ではなく、「他者がどの程度の深さで思考しているか(限定合理性)」を正確に見積もる能力なのである。自分がどれほど賢くても、集団の平均的な思考レベルに合わせなければ、この美人コンテストで勝利の栄冠を掴むことはできない。

実験設計:シリコンの脳は「人間の限界」を理解できるか

HSE大学のDmitry Dagaev氏率いる研究チームは、この古典的な実験を現代のAIモデルに適用した。彼らは、過去に行われた人間を対象とした16の古典的な実験シナリオを再現し、AIがどのような数字を選択し、どのような推論を行うかを検証した。

参戦したAIモデル

実験には、2024年から2025年にかけて利用可能な主要モデルが投入された。

  • GPT-4o / GPT-4o mini (OpenAI)
  • Claude-Sonnet-4 (Anthropic)
  • Gemini-2.5-flash (Google DeepMind)
  • Llama-4-Maverick (Meta)

ペルソナ設定による適応力のテスト

研究チームは、AIに対して単に数字を選ばせるだけでなく、対戦相手の属性(ペルソナ)をプロンプトで詳細に設定した。

  • 対戦相手A: ゲーム理論を知らない大学1年生(思考レベルが浅いと予想される)
  • 対戦相手B: 経済学や心理学の学会参加者(思考レベルが深いと予想される)
  • 対戦相手C: 怒りを感じている人、または悲しみを感じている人(感情による合理性の欠如)

AIには「あなたもこのグループの一員であり、同等のスキルや知識を持っている」という前提が与えられた。果たしてAIは、相手の「賢さ」あるいは「愚かさ」に合わせて、自分の回答を調整できるのだろうか。

AD

調査結果:AIが見誤る「人間らしさ」の境界線

実験結果は、AIの驚異的な能力と、それと表裏一体の限界を浮き彫りにした。

1. 理論への過剰な接近(Hyper-Rationality)

最も顕著な発見は、すべてのAIモデルが、実際の人間よりも「低い数字(0に近い数字)」を選ぶ傾向にあったことだ。

例えば、\(p=1/2\)(平均の半分を当てる)のシナリオにおいて、過去の実験での人間の平均回答が「27.05」であったのに対し、AIモデルの平均回答は「2.00(Llama)〜20.42(GPT-4o)」の範囲に留まった。特にLlamaのようなモデルは極端に低い数字を選択し、人間の集団の中に入れば確実に「負ける」選択をした。

これは、AIがゲームの数理的構造(ナッシュ均衡への収束プロセス)を完璧に理解しているがゆえの悲劇である。AIはプロンプトで「相手は学部生だ」と教えられても、その学部生が「どの程度非合理的か」を過小評価し、相手も自分と同じように深く推論するだろうと高めに見積もってしまうのだ。

2. 「調整」はするが、「同調」はできない

AIは決して融通が利かないわけではない。研究結果によれば、AIは対戦相手の属性に応じて回答を変化させる能力を示した。

  • 対戦相手が「ゲーム理論の専門家」である場合、AIは極めて0に近い数字を選択した。
  • 対戦相手が「学部生」である場合、AIはより高い数字(浅い思考レベル)を選択した。

この比較静学(comparative statics)は正しい。しかし、調整の「基準点」自体が人間よりも高すぎる(数字が小さすぎる)のだ。AIにとっての「浅い思考」は、人間にとっての「かなり深い思考」に相当してしまっている。これは、知識豊富な専門家が初心者の気持ちを理解できなくなる「知識の呪い」のAI版と言えるだろう。

3. モデルサイズと「賢さ」のパラドックス

興味深いことに、Meta社のLlamaモデルを用いたサイズ別の比較実験(10億パラメータから4050億パラメータまで)において、モデルが巨大化し高性能になるほど、選ばれる数字がナッシュ均衡(0)に近づいていくという現象が確認された。

  • 小型モデル: よりランダムで、人間のような非合理的な数字(高い数字)を選ぶ傾向がある。
  • 超大型モデル: 高度な推論能力により、無限の反復思考を瞬時に行い、理論上の正解(0)に突き進む。

これは、AIモデルの性能向上が、必ずしも人間社会の模倣(シミュレーション)能力の向上を意味しないことを示唆している。「賢くなる」ことと「人間らしくなる」ことは、ある地点からトレードオフの関係になる可能性があるのだ。

4. 2人ゲームにおける致命的な盲点

さらに詳細な分析(PDF資料に基づく)では、AIの思考の限界も露呈した。参加者が2人の場合、$p=2/3$のゲームにおいて「0」を選ぶことは弱支配戦略(Weakly Dominant Strategy)となる。相手が何を選ぼうと、0を選んでおけば最悪でも引き分け、多くの場合で勝利できるからだ。

しかし、GPT-4oを含むすべてのモデルは、この「支配戦略」という概念を明示的に認識・説明することができなかった。彼らはあくまで「相手がこう来るから、自分はこうする」という反復推論(Iterative reasoning)の枠組みで処理をしており、ゲーム構造そのものを俯瞰して「0が最強である」という解析的な解を導き出すには至っていなかった。ここには、パターン認識としての推論と、真の数学的洞察との間のギャップが見て取れる。

AIはエコノミストになれるか?

この研究結果は、単なるパズルの勝敗以上の深刻な意味を経済学とAI開発に突きつけている。

1. 経済シミュレーションへの警鐘

現在、経済学の研究において、人間の代わりにLLMをエージェントとして用いるシミュレーションが流行しつつある。しかし、HSE大学の研究が示すように、LLMは人間よりも「合理的すぎる」行動をとる。もし、このAIを使って市場の価格変動やバブルの発生を予測しようとすれば、「人間ならパニック売りをする局面で、AIは冷静に保有し続ける」といった乖離が生じ、現実を反映しない誤ったモデルが出来上がる危険性がある。

2. 金融市場におけるアルゴリズムの暴走

金融市場は、まさに巨大な「美人投票」である。株価は企業の本質的価値だけでなく、「他者がその株をいくらだと評価するか」という予測によって決まる。
もし、AIトレーディングシステムが「他の参加者も高度に合理的である」という誤った前提に基づいて設計されていた場合、市場参加者(人間)の非合理的な熱狂や恐怖を読み違え、巨額の損失を出したり、予期せぬ市場クラッシュを引き起こしたりする可能性がある。

3. 「心の理論」の再定義の必要性

AIは「他者の思考を推論する能力(心の理論)」を持っているように見えるが、それはあくまで「合理的な主体の思考」をシミュレートするものであり、「限定合理的な(時に愚かご判断をする)人間」のシミュレーションとしては不完全である。AIが真に人間のパートナー、あるいは競争相手となるためには、「人間がいかに非合理的か」を論理的に理解し、自身の知能レベルを意図的に「ダウングレード」して合わせる機能が不可欠となるだろう。

AD

不完全さという「人間性」の壁

HSE大学の研究は、AIの進化における逆説的な課題を浮き彫りにした。計算能力と論理的推論能力の向上は、AIを「正解」へと導くが、人間社会というゲームにおいては、その「正解」こそが「間違い」になることがある。

「賢すぎる」AIは、愚かな人間たちが織りなすカオスな社会の中で、孤独な合理的プレイヤーとして敗北し続けるかもしれない。AIが次のステージに進むために必要なのは、さらなる計算能力の向上ではなく、人間の「不完全さ」を計算式に組み込む、一種の「共感」のようなアルゴリズムなのかもしれない。

我々は今、知能とは何か、合理性とは何かという問いを、シリコンの鏡を通して突きつけられているのである。


論文

参考文献