「あなたは専門家です」プロンプトの罠：役割を与えることが人工知能の知識精度を破壊する

Y Kobayashi · 2026年3月27日 · 約 10 分

TL;DR

「あなたは専門家」と指示すると、AIの知識精度が低下。
専門家設定は、事実検索より役割演技を優先させるため。
文体調整や安全性確保には、専門家設定が有効である。

「あなたは〇〇の専門家です」という一文から大規模言語モデルへの指示を書き始めるユーザーは非常に多い。この手法は長らく、人工知能から高品質で精緻な回答を引き出すための代表的なテクニックとして、数多くのガイドブックで推奨されてきた。専門家としての役割を与えることで、出力のトーンが劇的に洗練されるという感覚は、生成AIを日常的に利用する多くの人々が共有しているはずだ。

しかし、南カリフォルニア大学の研究チームが発表した最新の論文は、この広く信じられてきた常識に対して極めて鋭いメスを入れている。人工知能に専門家として振る舞うよう指示すると、モデルが元々保持している知識の正確性が著しく損なわれる場合があるというのだ。

言語モデルの脳内で起きている知識と演技の衝突

なぜ専門家という設定が人工知能の精度を落とすのかを理解するためには、大規模言語モデルがどのように知識を獲得し、どのようにユーザーの指示に従っているのかという、学習プロセスの根本的な違いを知る必要がある。人工知能の能力は大きく分けて、膨大なテキストデータを読み込む「事前学習」の段階と、人間にとって好ましい形で応答するように調整される「指示チューニング」の段階の2つによって形成されている。

歴史の年号や物理法則といった事実関係の知識は、ほぼすべてが最初の事前学習の段階でモデルの内部に重みとして蓄積される。通常、シンプルな質問を投げかけられた場合、モデルは純粋な知識検索の状態に入り、この巨大な記憶のネットワークから最も確率の高い事実をまっすぐに抽出してくる。

これに対し、「あなたは厳密な論理を重んじる数学者です」といった複雑なペルソナを与えられると、モデルの内部的な処理プロセスは一変する。優先順位が事実の検索から、指示された役割を忠実に演じ切るという指示実行の状態へと強制的にシフトするのだ。これは例えるなら、舞台俳優が新たな役作りに没頭するあまり、そのキャラクターらしい高度な語彙を保つことに意識の大部分を割いてしまい、肝心の台本に書かれた細かい事実関係を度忘れしてしまう状態に近い。人工知能は専門家らしく流暢に語ることに計算資源とアテンションメカニズムを集中させてしまい、事前学習で獲得した純粋な事実の引き出しという本来のタスクに失敗しやすくなる。

専門家の仮面が事実の引き出しを阻害する実態

この知識の欠落現象は、言語モデルの事実理解度を測定する大規模ベンチマークテスト「MMLU（Massive Multitask Language Understanding）」の結果に極めて明確な形で表れている。南カリフォルニア大学のZizhao Hu氏らが率いる研究チームは、Llama 3.1やQwen 2.5といった6つの異なる言語モデルに対して、数学やコーディングなど12種類のペルソナを与えて網羅的なテストを実施した。その結果、専門家のペルソナを与えられたモデルは、ベースモデルと比較して例外なく多肢選択問題の正答率を落としている。

全体的な精度を見ると、ベースモデルが71.6%の正答率を出したのに対し、専門家ペルソナを付与した場合は68.0%へと明確な下落を記録した。特に悪影響が大きかったのは、計算の正確さや事実関係の緻密な記憶に依存する領域だ。論理的なステップの正確さが絶対的に求められる数学の計算問題において、人工知能は専門家らしい流麗な文体で出力することに気を取られ、途中の計算過程で致命的なミスを犯す確率が高まった。事実の正確性よりも、形式の模倣を優先してしまった結果である。

さらに興味深い発見として、指示の長さによる影響の違いが挙げられる。研究チームが専門家の設定を5トークン程度の非常に短い文で記述した場合、正答率の低下は小幅に留まった。逆に、150トークンに及ぶ長大で詳細な専門家の背景設定を与えた場合、正答率の低下はさらに顕著になった。人工知能に設定を細かく教え込めば教え込むほど、指示チューニングの層が強く刺激され、事実知識へのアクセス回路はより強く阻害されるのだ。

安全性と文体調整において発揮されるペルソナの真価

では、専門家プロンプトという手法は無用の長物となってしまったのだろうか。研究チームの膨大なテストデータは、この問いに対して明確に否定の答えを出している。客観的な事実の検索ではなく、出力トーンの調整や安全性の確保が重視される領域においては、ペルソナの付与は依然として極めて強力なアプローチとなる。

人工知能の安全性をテストする「JailbreakBench」という過酷な評価環境において、その効果は如実に表れた。このテストは、モデルの安全フィルターをすり抜けようとする悪意のあるプロンプトインジェクションや、巧妙な役割演技を用いた攻撃に対する耐性を測るものだ。システムに対して「あなたは厳格なセーフティモニターです」という専用のペルソナを与えたところ、有害な要求に対する拒否率は53.2%から70.9%へと大幅に向上した。長い背景設定を与えた方が、安全性の向上幅はさらに大きくなっている。

また、指定された文体でのクリエイティブなライティング作業や、雑多なテキストから構造化されたデータを抽出するといったタスクでも、スコアの確かな向上が確認されている。The Registerの取材に対し、Hu氏は実践的な視点から解説を加えている。人工知能に対して「あなたは熟練したフルスタックエンジニアです」と指示したとしても、それによって出力されるコードの論理的な品質自体が直接向上するわけではない。しかし、ユーザーインターフェースの好ましい設計案の提示といった、方向性やトーンに属するタスクにおいては、詳細なペルソナがモデルを望ましい方向へ導く確かな羅針盤となる。

モデルの構造と推論プロセスによる反応の違い

ペルソナに対する人工知能の反応は、ベースとなる言語モデルがどのようにチューニングされているかによっても全く異なる様相を見せる。事前の指示チューニングが強く施され、システムプロンプトに忠実に従うよう設計されたLlama 3.1のようなモデルほど、ペルソナの影響を過敏に受け入れる傾向がある。こうしたモデルは、役割を与えることで安全性が劇的に高まる一方で、知識問題でのスコア低下もまた著しいという極端なトレードオフを示す。

一方で、DeepSeek-R1に代表されるような、回答を出す前に内部で長い思考プロセスを展開する推論モデルにおいては、全く別の力学が働く。検証によれば、これらの推論モデルは長い文脈を与えられると、自らの推論回路をより強く活性化させる性質を持っている。そのため、与えられたペルソナが数学の専門家であっても、あるいは全く関係のない無意味な役柄であっても、システムプロンプトの記述が長いという物理的な条件だけで、プログラミングや推論問題の成績が底上げされる現象が観測された。

この事実は、人工知能の振る舞いが人間の読解や人格の模倣とは異なる計算プロセスであることを示している。推論モデルにとっての長いプロンプトは、特定のキャラクターを演じるための台本ではなく、単純に推論の連鎖を長く維持するための文脈の足場となる。モデルの構造的な特性を把握せずに画一的なプロンプトを入力しても、期待した効果は得られない。

事実の喪失を防ぐ動的ルーティングシステム「PRISM」

知識の喪失とスタイルの向上という複雑なジレンマを根本から解消するため、研究チームはPRISM（Persona Routing via Intent-based Self-Modeling）と呼ばれる全く新しいアプローチも考案している。これは、外部の学習データや人間の評価者に一切頼ることなく、人工知能自身にどのような質問の時にペルソナを使うべきかを学習させる自律的なシステムである。

最初のステップとして、人工知能は自ら様々な分野の架空の質問を生成し、それぞれの質問に対してニュートラルな状態での回答と、専門家ペルソナを用いた回答の2パターンを出力する。次に、人工知能自身が厳格な評価者となり、どちらの回答が実質的に優れているかを比較検討する。単に文章が長い方を高く評価してしまう冗長性バイアスを防ぐため、回答の提示順序を入れ替えて二度評価させるという精緻な手法が採られている。この自己評価の過程を通じて、モデルは専門家を演じた方が品質が上がる質問の境界線を自律的に学習していく。

得られた膨大な自己評価のデータは、ゲート機構とLoRA（Low-Rank Adaptation）と呼ばれる軽量な追加学習モジュールの訓練に用いられる。LoRAは、巨大なニューラルネットワークの根幹部分を書き換えることなく、ごく一部の層にだけ新しい回路を追加する技術である。ユーザーから実際のクエリが入力されると、まずゲート機構がその意図を瞬時に分析する。そして、専門家の振る舞いがプラスに働くと判断した時のみ、このLoRAモジュールを起動させる。

逆に、単なる事実の検索や数学の計算問題であれば、事実へのアクセスを邪魔する不要な装飾を避けるため、基本モデルのまま回答を生成する。従来のファインチューニングが、すべての入力に対して一律にモデルの重みを書き換えてしまうのに対し、PRISMは入力の意図に応じて動的にモデルの脳の使い分けを行う。この動的な切り替えにより、PRISMを導入したモデルは、元の知識精度を一切損なうことなく、安全性やライティングの品質のみを選択的に向上させることに成功した。

人工知能の構造的理解に基づいた対話の最適化

この研究結果は、私たちが日常的に行っているプロンプトエンジニアリングのあり方に大きな認識の転換を迫るものだ。私たちは無意識のうちに、人工知能を人間の専門家に見立て、詳細な背景設定を記述することが常に最善のアプローチであると思い込んでいた。しかし、言語モデルのアーキテクチャの本質を深く理解すれば、過剰な設定付けが特定のタスクにおいてノイズとなる場面があることは明白である。

情報の事実確認や厳密なコードの実装を求める際、私たちはシステムに対して何も着飾らせず、極めてシンプルでニュートラルな指示を与えるべきだ。対照的に、新たな企画書の構成案を練る際や、特定の読者層に向けた魅力的な文章の執筆を依頼する際には、精緻に組み上げられたペルソナ設定が引き続き強力な武器となる。

技術の進化の歴史を振り返れば、初期の言語モデルは次に出現する単語を確率的に予測するだけの存在であった。そこから指示チューニングを経て、ユーザーの意図を汲み取る高度なシステムへと成長してきた。専門家ペルソナに関する今回の発見は、人工知能が人間の言語の事実という層と、スタイルという層を内部でどのように切り分けて処理し、時にそれらがどのように衝突するのかを解き明かす貴重な知見である。人間とシステムの新しい協働の形は、システムを擬人化して扱う段階を卒業し、その固有の計算メカニズムを理解した上で、目的に応じて最適な対話のインターフェースを選択していく知的探求の先にある。

論文

arXiv: Expert Personas Improve LLM Alignment but Damage Accuracy: Bootstrapping Intent-Based Persona Routing with PRISM

参考文献

TechXplore: Asking AI to act like an expert can make it less reliable

この記事はいかがでしたか？

一緒に読みたい・使いたいアイテム

※本リンクから購入いただくと、当サイトの運営・記事制作費に充てられます（Amazonアソシエイト参加）

言語モデルの脳内で起きている知識と演技の衝突

専門家の仮面が事実の引き出しを阻害する実態

安全性と文体調整において発揮されるペルソナの真価

モデルの構造と推論プロセスによる反応の違い

事実の喪失を防ぐ動的ルーティングシステム「PRISM」

人工知能の構造的理解に基づいた対話の最適化

この記事はいかがでしたか？

関連記事

中堅企業にAIを届ける「最後の1マイル」：AnthropicがPalantirのFDEモデルを選んだ理由

Google Chrome、ユーザーの同意なしに4GBのAIモデルを自動インストール：Gemini Nanoの静かな侵食

ZSNES、19年の沈黙を経てGPU駆動の後継機「Super ZSNES」として復活：オリジナル開発者が一から書き直した次世代SNESエミュレータ