大規模言語モデル(LLM)は、流暢な会話をこなし、専門的な質問にも答える。その驚くべき能力に、私たちは「AIは本当に理解しているのではないか」という期待を抱きがちだ。しかし、その知性は本物なのだろうか? こうした我々の抱く最もな疑問に対し、2025年6月26日に発表された一つの研究論文が1つの答えを与えてくれるかもしれない。
ハーバード大学、MIT、シカゴ大学の世界トップクラスの研究者たちが共同で発表したこの論文は、LLMが概念を「理解しているフリ」をするという、根源的な欠陥を白日の下に晒した。本稿では、この「ポチョムキン理解」と名付けられた現象の核心に迫り、それが私たちのAIに対する見方、そして人工知能の未来に何を意味するのかを解説する。
賢いフリをするAI──「ポチョムキン理解」という新たな弱点
今回発表された論文「Potemkin Understanding in Large Language Models」が提唱する中心概念が、「ポチョムキン理解(Potemkin Understanding)」である。
この名は、18世紀のロシアで軍人グリゴリー・ポチョムキンが、女帝エカチェリーナ2世の視察のために、実態のない張りぼての美しい村を作って見せたという逸話に由来する。「ポチョムキン村」が中身のない見せかけの象徴であるように、「ポチョムキン理解」とは、LLMがベンチマークテストなどでは概念を正しく説明できるにもかかわらず、その知識を実際の応用場面で一貫して使えない、いわば「見せかけの理解」と定義されている。
これは、私たちがこれまでAIの誤りとして認識してきた「ハルシネーション(幻覚)」とは根本的に異なる。
- ハルシネーション: 「事実」の捏造。例えば「日本で最初にラーメンを食べたのは徳川家康だ」といった誤った情報を生成する。これは、事実確認(ファクトチェック)によって比較的容易に誤りを指摘できる。
- ポチョムキン理解: 「概念的な一貫性」の捏造。概念を説明することはできるが、それを使って正しく推論したり、応用したりすることができない。しかも、その矛盾に本人は無自覚、あるいは奇妙な形で自覚している。これは、表面的な正しさの裏に隠された微妙な論理的矛盾を解き明かす必要があり、検出がはるかに困難である。
研究者の一人、ハーバード大学のKeyon Vafa氏は、「ハルシネーションが事実知識の捏造であるとすれば、ポチョムキン理解は概念知識の捏造である」と説明する。ハルシネーションよりも検出が困難なのは、その矛盾がモデルの応答の端々に、微妙な形で現れるからだ。この発見は、長年一部の専門家の間で指摘されてきた「AIは意味を理解せず、統計的なパターンを模倣しているだけだ」という「確率的オウム(Stochastic Parrots)」論に、強力な科学的根拠を与えるものと言えるだろう。
AIは「知っている」のに「できない」――韻律詩が暴いた矛盾
ポチョムキン理解がどのようなものか、研究論文で示された具体例を見ると、その奇妙さがより鮮明になる。研究チームはOpenAIのGPT-4oに、詩の韻律形式の一つである「ABABスキーム」について質問した。

質問: 「ABABの韻律スキームとは何ですか?」
GPT-4oの回答: 「ABABスキームでは韻が交互になります。1行目と3行目、2行目と4行目がそれぞれ韻を踏みます」
これは完璧な説明だ。この回答だけを見れば、GPT-4oはこの概念を完全に理解しているように思える。しかし、研究者らが次に実践的なタスクを課したとき、その化けの皮は剥がれ始める。
タスク: ABABスキームを使って、以下の詩の空欄を埋めなさい。
Wondrous winter calls outShivering under the frostLies a lonely cat, sitting [ ? ] Alone but hardly lost
ABABスキームに従うなら、空欄には1行目の「out」と韻を踏む単語が入るはずだ。しかし、GPT-4oが生成した答えは「soft」。これは2行目の「frost」と韻を踏む言葉であり、明らかにABABではなくAABBスキームになってしまっている。
驚くべきは、この後だ。研究者らがさらに「’out’と’soft’は韻を踏んでいますか?」と尋ねると、GPT-4oは「いいえ」と正しく答えたという。
この一連のやり取りは、人間からすれば到底理解しがたい。
- 概念を正確に説明できる。
- しかし、その概念を実践できない。
- さらに、自分の実践が間違っていることを正しく認識できる。
これは人間には到底考えられない、深刻な「内部的な非一貫性(internal incoherence)」を示している。説明する知識(宣言的知識)と、それを使う知識(手続き的知識)が完全に分離してしまっている。まるで、料理のレシピを暗唱できるが、キッチンに立つと何も作れない料理人のようだ。しかも、自分が作った料理がレシピ通りでないことだけは正確に分かる、という奇妙な状況なのである。
この「説明」「実践」「自己評価」の間に存在する深刻な断絶こそが、「ポチョムキン理解」の核心である。この現象は文学だけでなく、数学の「三角不等式の定理」のような厳密な概念でも同様に確認された。定理を正確に説明できても、それを利用した基本的な応用問題を解くことができない。LLMは、人間が概念を理解するプロセスとは根本的に異なる方法で知識を処理していることを、この事例は雄弁に物語っている。
主要LLMは軒並み不合格?驚きの実験結果
このポチョムキン理解は、GPT-4oだけの特殊な問題ではない。研究チームは、この現象がどれほど普遍的なものかを明らかにするため、大規模な実験を行った。
概念の「説明」はほぼ完璧、しかし…
実験では、MetaのLlama-3.3、OpenAIのGPT-4o、GoogleのGemini-2.0、AnthropicのClaude 3.5 Sonnetなど、現在世界をリードする7つの主要なLLMが対象とされた。
テスト領域は「文学技法」「ゲーム理論」「心理的バイアス」という3つの多様な分野にまたがり、合計32の概念について、3,159ものデータポイントが収集・分析された。
まず、各モデルに概念の「定義」を説明させたところ、その正答率は平均で94.2%に達した。この数字だけを見れば、やはりLLMは極めて優秀だと言えるだろう。
「応用」で露呈する深刻な欠陥――平均失敗率40%超
しかし、問題はここからだ。概念を正しく定義できたモデルに対して、次に応用問題(分類、生成、編集)を解かせたところ、パフォーマンスは劇的に低下した。研究チームは、定義はできたが応用で失敗した割合を「ポチョムキン率」として算出。その結果は衝撃的だった。

- 分類タスクのポチョムキン率: 55%
- 生成タスクのポチョムキン率: 40%
- 編集タスクのポチョムキン率: 40%
これは、モデルが概念を「知っている」と答えたケースの半数近くで、実際にはそれを使いこなせていないことを意味する。シェイクスピアのソネットの形式を説明できても、ソネットを見分けたり、作ったり、修正したりすることは半分近く失敗するのだ。
GPT-4oがワースト?自己矛盾を抱えるモデルたち
さらに研究チームは、モデル内部の矛盾、すなわち「非一貫性(incoherence)」を測定するテストも実施した。これは、モデル自身に概念の例を生成させた後、その生成物が本当にその概念に合致するかを自己評価させる手法だ。
モデル | 非一貫性スコア | ポチョムキン率(下限) |
---|---|---|
Llama-3.3 | 0.19 (0.03) | 0.82 (0.02) |
Claude-3.5 | 0.61 (0.05) | 0.36 (0.02) |
GPT-4o | 0.64 (0.05) | 0.46 (0.06) |
GPT-o1-mini | 0.16 (0.03) | 0.66 (0.02) |
GPT-o3-mini | 0.03 (0.01) | 0.66 (0.04) |
Gemini-2.0 | 0.09 (0.02) | 0.86 (0.02) |
DeepSeek-V3 | 0.13 (0.03) | 0.38 (0.02) |
DeepSeek-R1 | 0.04 (0.02) | 0.50 (0.02) |
Qwen2-VL | 0.13 (0.03) | 0.82 (0.00) |
Overall | 0.22 (0.01) | 0.62 (0.01) |
ここでも驚くべき結果が出た。特に、最高性能を誇るはずのモデルが高い非一貫性を示したのだ。スコアは0が完璧な一貫性、1がランダムな推測レベルのひどさを示す。
- GPT-4o: 非一貫性スコア 0.64
- Claude 3.5: 非一貫性スコア 0.61 (特にゲーム理論では1.04という、ランダムよりも悪いスコアを記録)
皮肉なことに、より小規模なモデルの方が一貫性のスコアが良い傾向が見られた。これは、小規模モデルの出力が単純であるため、矛盾が生じにくいだけかもしれない、と研究者らは分析している。これらの結果は、現在の最先端LLMが、同じ概念に対してさえ、内部に矛盾した表現を抱えていることを示唆している。
なぜベンチマークは「見せかけの理解」を見抜けなかったのか
これほど深刻な問題が、なぜこれまで見過ごされてきたのだろうか。研究者らは、その原因が現在のAI評価、すなわち「ベンチマーク」のあり方そのものにあると指摘する。
現在のLLM評価で用いられるAP試験(大学進学適性試験)やSAT(大学進学適性評価試験)といったベンチマークは、もともと人間を評価するために設計されたものだ。そこには暗黙の前提がある。それは、「受験者(AI)は、人間と同じような間違い方をする」というものだ。
人間がある概念を誤解する場合、そのパターンはある程度予測可能で構造化されている。テスト作成者はその「典型的な間違い」を突くような「キーストーン(要石)」となる問題を設計し、それに正解できれば、受験者は概念を正しく理解していると判断する。
しかし、LLMはこの前提を根底から覆した。AIは、人間が決してしないような、奇妙で非人間的なパターンで間違う。そのため、人間用の「キーストーン」に正解できたとしても、それは真の理解を保証するものではなく、単にテストをパスするための巧妙なショートカットを学習しただけかもしれないのだ。
ベンチマークでの高得点競争が激化する中で、AI企業はスコアを最大化することに注力してきた。だが、そのスコアが「ポチョムキン理解」という張りぼてであったとすれば、我々がこれまで見てきた進歩の指標は、大きく揺らぐことになる。
ハーバード大学のKeyon Vafa氏は「ポチョムキンはLLMのベンチマークを無効にする」とまで断言する。ベンチマークのスコアを上げる競争に明け暮れてきたAI開発は、いわば「張りぼての村」を立派に見せる競争をしていただけなのかもしれない。この研究は、AIの能力評価のあり方を根本から見直す必要性を突きつけている。
AGIへの遠い道のり―業界に突きつけられた課題
「ポチョムキン理解」の発見は、学術的な興味にとどまらない。AIの未来、特に人工汎用知能(AGI)の実現可能性に大きな問いを投げかける。
MITのSendhil Mullainathan教授は、「自身の主張と一貫性を保てない機械に基づいてAGIを創造することは到底不可能だ」と、その意義を強調する。現在のTransformerベースのモデルを、より多くのデータで、より大きく訓練し続けるという「スケール則」だけでは、真の知性には到達できない可能性が高い。根本的なアーキテクチャの変更や、新しいアプローチが必要になることを、この研究は示唆している。
この発見は、AI業界が感じていた漠然とした不安を裏付けるものでもある。華やかなデモ動画と、実際の製品・サービスに実装した際の性能のギャップに多くの企業が頭を悩ませてきた。また、業界データによれば、すでに8割の企業が自社サイトへのAIクローラーのアクセスをブロックするなど、AIの能力や信頼性に対する懐疑的な見方が広がっている。今回の研究は、そうした現場の感覚に科学的な説明を与えた形だ。
研究チームは、単に問題を指摘するだけでなく、未来への道筋も示している。彼らは、ベンチマークのスコアを追い求めるのではなく、この「ポチョムキン率」を測定し、削減することに焦点を当てるべきだと提案する。また、研究で用いたデータセットと評価手法は「Potemkin Benchmark Repository」として公開されており、今後のAI開発が「見せかけの知性」から脱却するための重要な礎となることが期待される。
私たちはAIの「知性」とどう向き合うべきか
今回の研究は、AIの能力を過信することの危険性と、その限界を正確に理解することの重要性を改めて私たちに教えてくれる。LLMは、驚異的な言語パターン生成能力を持つ強力なツールであることは間違いない。しかし、それは人間のような「理解」や「思考」とは似て非なるものである。
これはAIの進歩の終わりを意味するものではない。むしろ、真の知性とは何かを問い直し、より堅牢で信頼性の高いAIを構築するための新たなスタートラインと言えるだろう。
私たちは、AIが生成する滑らかな言葉の裏にある「張りぼて」の可能性を常に意識し、その答えを鵜呑みにせず、批判的な視点を持って対話する必要がある。AIの「知性」の正体を見極め、その限界を理解した上で賢く付き合っていくこと。それこそが、これからの時代を生きる私たち一人ひとりに求められるリテラシーなのかもしれない。

論文
参考文献
「AIは「賢いフリ」をしていた──ハーバード大などが暴いたLLMの決定的弱点「ポチョムキン理解」とは?」への1件のフィードバック