大規模言語モデル(LLM)が生成する「ハルシネーション(幻覚)」。このもっともらしい嘘は、AIの信頼性を揺るがす最も重要で根深い課題だ。今回、OpenAIは新たな研究論文を発表し、なぜこの問題が最新モデルですら根絶できないのか、その核心的な理由を自ら白日の下に晒した。結論から言えば、原因はAIの訓練方法だけでなく、開発競争を煽る「評価システムの欠陥」そのものにあるという。業界全体に衝撃を与えるこの分析は、AIの信頼性を再定義する重要な一歩となるかもしれない。

AD

AIはなぜ「もっともらしい嘘」をつくのか?研究者が晒した衝撃の事例

OpenAIは論文の冒頭で、ハルシネーションを「もっともらしいが誤った記述」と定義し、その根深さを自虐的とも言える事例で示した。

論文の著者の一人であるAdam Tauman Kalai氏の情報を、広く使われているチャットボットに尋ねたところ、驚くべき結果が返ってきた。

  • 「彼の博士論文のタイトルは?」 という問いに、ボットは3回とも異なる、しかしそれらしいタイトルの論文名を自信満々に生成した。もちろん、全てが誤りだった。
  • 「彼の誕生日は?」 という問いには、さらに3つの異なる日付を提示。これもまた、全てが事実無根だった。

これは、私たちが日常的に体験するChatGPTの奇妙な挙動そのものだ。最新鋭のGPT-5ですら、この問題は依然として「根本的な課題」として残存するとOpenAIは認めている。AIはなぜ、これほどまでに確信を持って嘘をつくのだろうか。その答えは、AIが「生まれてから評価されるまで」のプロセスに隠されていた。

「ハルシネーション」が生まれる2つの段階:製造ラインの欠陥を追う

OpenAIの分析によれば、ハルシネーションは大きく分けて2つの段階で生まれ、そして強化される。それは「事前学習」というAIの基礎体力をつける段階と、「評価」というAIの成績を決める段階だ。

第1段階:事前学習 – 「次に来る単語」を予測するだけの世界

言語モデルの基本的な学習方法は、驚くほどシンプルだ。インターネット上にある膨大なテキストデータを読み込み、「次に来る単語は何か?」をひたすら予測し続ける。この「次単語予測」タスクが、ハルシネーションの源泉となる。

なぜなら、この段階の学習データには「何が正しく、何が間違っているか」という真偽のラベルが存在しないからだ。AIはただ、人間が書いた流暢な文章の統計的パターンを模倣しようとする。

その結果、奇妙な現象が起きる。

  • スペルや文法: これらは言語内で一貫した強力なパターンを持つため、モデルの規模が大きくなるにつれて、間違いはほぼなくなる。
  • 事実情報: 一方で、特定の人物の誕生日や、あまり知られていない論文のタイトルのような「出現頻度の低い任意な事実」は、前後の文脈から予測するための強力なパターンを持たない。

論文では、これを「ペットの誕生日」に例えている。何百万枚もの犬と猫の写真を「犬」「猫」とラベル付けして学習させれば、AIは正確に分類できるようになる。しかし、それらの写真に「ペットの誕生日」というランダムなラベルを付けて学習させても、AIが新しいペットの誕生日を正確に予測することは不可能だ。

言語モデルの事前学習もこれと同じで、統計的な裏付けが乏しい事実については、最もそれらしく聞こえる単語の並びを「推測」して生成するしかない。これが、ハルシネーションの原点である。

論文では、ハルシネーションをさらに細かく分類している。

  • 内在的ハルシネーション: ユーザーのプロンプトと矛盾する回答。「DEEPSEEKという単語にDはいくつありますか?」という問いに「2つ」と答えるようなケースだ。
  • 外在的ハルシネーション: 現実世界の事実や学習データと矛盾する回答。存在しない引用や経歴を捏造するケースがこれにあたる。

これらはすべて、真偽を判断するのではなく、あくまで確率的にもっともらしいテキストを生成するという、LLMの根源的な性質に起因しているのだ。

第2段階:評価 – 「正直者が損をする」歪んだインセンティブ

現在の主流なAI評価ベンチマークの多くは、「正解率(Accuracy)」という単一の指標を重視している。モデルが質問に対してどれだけ正確な答えを返せたか、その一点で性能が測られる。論文は、この仕組みが「不確実性を認めることよりも、推測することを奨励している」と断じる。

ここでも、非常に分かりやすいアナロジーが用いられている。学校の多肢選択式テストだ。
もし答えが分からなくても、当てずっぽうで回答すれば偶然正解する可能性がある。しかし、空欄で提出すれば確実に0点だ。この状況では、多くの学生がリスクを冒してでも推測で回答を選ぶだろう。

言語モデルも全く同じ状況に置かれている。ある人物の誕生日を知らない場合、正直に「分かりません」と答えれば、その問題のスコアは0点だ。しかし、例えば「9月10日」と推測すれば、365分の1の確率で正解し、スコアを獲得できる。数千、数万という質問でこの戦略を繰り返せば、「推測するモデル」は「正直なモデル」よりも総合スコアが高くなるという逆転現象が起きる。

OpenAIは、この歪んだ状況を示す衝撃的なデータを公開した。SimpleQAというベンチマークにおける、新旧モデルの性能比較だ。

メトリックgpt-5-thinking-mini (新)OpenAI o4-mini (旧)
棄権率(回答せず)52%1%
正答率(高い方が良い)22%24%
エラー率(低い方が良い)26%75%
合計100%100%

この表はまさに今回の問題を如実に表している。「正答率」だけを見れば、旧モデルのo4-miniがわずかに優れている。しかし、その内実を見ると、o4-miniはほとんどすべての問いに何らかの回答を試み、その結果75%という驚異的なエラー率(ハルシネーション率)を記録している。

一方で、新しい思考モデルであるgpt-5-thinking-miniは、半数以上の問いに対して「分からない」と判断し回答を棄権している。その結果、エラー率は26%にまで劇的に低下しているが、従来の評価ボードでは「正答率が低いモデル」として評価されてしまうのだ。

OpenAIはこの、不確実性の表明を罰し、ハルシネーションを助長する評価システムが蔓延している状況を「エピデミック(伝染病)」とまで呼び、強い危機感を表明している。開発者たちは、スコアボードで上位に立つために、意図せずして「嘘つきなAI」を育ててしまうインセンティブに晒されているのだ。

AD

OpenAIが投じる一石:AI開発の「ゲームのルール」を変えよ

この根深い問題に対し、OpenAIは単なる技術的な改善策だけでなく、AI開発コミュニティ全体に向けた「ルールの変更」を提案する。これは、AIの信頼性を向上させるための、社会技術的なアプローチだ。

解決策の核心:評価ベンチマークの抜本的改革

OpenAIの提案は明快だ。「自信満々な誤りにはペナルティを課し、適切な不確実性の表明には部分点を与えるべきだ」。これは、米国の大学進学適性試験(SAT)などでかつて採用されていた、誤答に減点を課す採点方式と思想を同じくする。

具体的には、以下のような改革が必要だと彼らは主張する。

  1. スコアリングの変更: 現在主流の正答率のみを測るベンチマーク(論文ではGPQA, MMLU-Pro, SWE-benchなどが挙げられている)の採点基準そのものを更新し、推測を抑制する仕組みを導入する。
  2. 信頼性閾値の導入: 例えば、「80%以上の自信がある場合のみ回答せよ」といった指示を評価タスクに組み込み、モデルが自身の不確かさを管理する能力(行動的キャリブレーション)を測る。
  3. 業界標準の確立: いくつかの新しい評価手法を追加するだけでは不十分であり、業界全体で広く使われている主要な評価(リーダーボード)のルール自体を変えなければ、「エピデミック」は止まらない。

これは、AIの能力を測る「物差し」そのものを変えようという試みだ。正直で謙虚なAIが正当に評価される環境を作らない限り、ハルシネーションとの戦いは終わらない、という強い意志の表れだろう。

モデル自身に「謙虚さ」を教える

評価の物差しが変われば、モデルの学習の方向性も変わる。OpenAIは、モデルが不確実な場合に取るべき行動として、単に「分かりません」と答える以外にも、以下のような選択肢を想定している。

  • 外部ツールの利用: 計算機やデータベース、ウェブ検索などを利用して、事実を確認する。
  • ユーザーへの質問: 曖昧な点を明確にするために、ユーザーに質問を投げ返す。
  • 応答の停止: 誤った情報を与えるリスクが高いと判断した場合、応答を拒否する。

実際に、この方向での進化はすでに始まっている。スタンフォード大学の数学者が、ある未解決の数学問題を1年がかりでOpenAIのモデルに解かせたところ、初期のモデルは誤った答えを生成し続けたが、最新のモデルはついに「この問題は解けません」と認めたという。これは、モデルが自身の能力の限界を認識し始めた、重要な一歩と言える。

これはAIだけの問題ではない:検索と情報の信頼性の未来

OpenAIのこの提言は、単にAIの技術的な問題を指摘しているのではない。筆者は、これがGoogleをはじめとする巨大テック企業が長年取り組んできた「情報の信頼性」という普遍的な課題に対する、AI時代の一つの回答だと考えている。

Googleが検索品質を評価するために用いるガイドラインには、「E-A-T(専門性・権威性・信頼性)」という概念がある。これは、Webページの情報がどれだけ信頼できるかを評価するための指標だ。AIが生成するコンテンツが爆発的に増加する今、このE-A-Tの概念は、AIが生成した情報そのものにも適用されなければならない。

OpenAIが指摘する「正直者が損をする評価システム」は、かつての検索エンジン最適化(SEO)の世界で、品質の低いコンテンツが検索結果の上位を占めていた状況と酷似している。Googleがアルゴリズムを改良し、E-A-Tの高いコンテンツを評価するように「ゲームのルール」を変えたことで、Web全体の品質が向上したように、AI業界もまた、評価の軸足を「正答率」から「信頼性」へと移す転換点にいるのかもしれない。

この論文が持つ真の重要性は、ハルシネーションを「バグ」ではなく、現在の開発エコシステムが生み出す「必然的な結果」として捉え直した点にある。これは、AI開発者だけでなく、私たちユーザーにも重要な示唆を与える。

AIは、少なくとも現時点では、全知全能の神ではない。それは、確率に基づいてももっともらしい答えを生成する、極めて高度なツールである。したがって、私たちユーザーには、その出力を鵜呑みにせず、常に批判的に吟味し、必要であれば裏付けを取る「AIリテラシー」がこれまで以上に求められることになるだろう。

AD

ハルシネーションとの終わらない戦い、そして共存の道

今回のOpenAIの論文は、多くの人々がAIのハルシネーションに対して抱いているであろう「通説」や「誤解」を、データと論理に基づいて覆している点も非常に興味深い。

  1. 誤解: 正答率が100%になればハルシネーションは消える。
    → 真実: 精度100%は実現不可能である。なぜなら、現実世界には情報が不足していたり、曖昧だったりして、本質的に答えられない問いが存在するからだ。完璧なモデルは“幻想”に過ぎない。。
  2. 誤解: ハルシネーションは不可避である。
    → 真実: 不可避ではない。なぜなら、言語モデルは人間と同じように「知らない」と表明する能力を持つからだ。問題は、そうするように動機付けられていないことにある。
  3. 誤解: ハルシネーションを避けるには巨大なモデルが必要だ。
    → 真実: むしろ逆の場合さえある。小規模なモデルの方が、自身の知識の限界を認識しやすいことがある。例えば、マオリ語を全く知らない小さなモデルは、マオリ語の質問に「分かりません」と即答できる。しかし、少しだけ知っている大規模モデルは、その知識で答えられるかどうかの難しい自己評価を迫られる。
  4. 誤解: ハルシネーションは、AIの神秘的なバグや不具合だ
    → 真実: 神秘的でも何でもない。それは、次単語予測という訓練方法がもたらす「統計的な必然」と、推測を奨励する「評価システムの欠陥」という、明確に説明可能なメカニズムによって引き起こされている。
  5. 誤解: ハルシネーションを測る良い評価法があれば解決する。
    → 真実: 専用の評価指標だけでは効果は薄い。何百もの既存の「正解率至上主義」の評価指標が推測を奨励し続ける限り、ハルシネーション専用の評価指標は大きな影響力を持てない。業界の「主戦場」である主要評価指標そのものを変革する必要がある。

ハルシネーションを完全にゼロにすることは、おそらく不可能だろう。しかし、OpenAIが示すように、それを制御し、AIが自身の不確実性をユーザーに伝えられるようになれば、話は大きく変わるのだ。

AIの「知性」から「信頼性」へ

OpenAIによる今回の発表は、AI開発に大きな方針転換を迫る、極めて重要な意味を持つ。これはもはや、単にAIの性能を上げるという技術的な話ではない。私たちがAIに何を求め、どう評価し、どう付き合っていくのかという、より根源的で哲学的な問いを投げかけている。

これまでAI開発競争は、いかに多くのタスクをこなせるか、いかに賢い答えを出せるかという「知性」や「能力」の側面が強調されてきた。しかし、AIが社会インフラの一部となり、我々の意思決定に深く関与する未来においては、「能力」と同じか、それ以上に「信頼性」や「正直さ」が重要になる。

今回の提言は、その信頼性を担保するための第一歩だ。AIが自らの知識の限界を認識し、それを正直にユーザーに伝える「謙虚さ」を身につけること。そして、開発者コミュニティ全体が、そうした「正直さ」を正しく評価する文化を醸成すること。これができなければ、私たちは永遠に、自信満々な嘘つきを量産し続けることになるだろう。

未来のAIは、あらゆる問いに答える賢者ではなく、自身の知識の境界線をわきまえた、誠実なアシスタントになるのかもしれない。重要なのは、その不完全性をシステム自体が理解し、ユーザーに適切に伝える能力だ。OpenAIが自ら評価システムの欠陥を認め、業界全体に変革を促した勇気は称賛に値する。この一石が、AI業界の健全な発展につながる大きな波紋となることを期待したい。


Sources