AI、金融界の最高峰資格CFA試験を席巻：Gemini 3.0 Proなどが全レベルを突破し、金融アナリストの未来を問い直す

Y Kobayashi2025年12月16日

約 19 分

AI、金融界の最高峰資格CFA試験を席巻：Gemini 3.0 Proなどが全レベルを突破し、金融アナリストの未来を問い直す

金融界で最も権威ある資格の一つとされるChartered Financial Analyst（CFA）試験。その全3レベルを、最新の推論モデル、特にGoogleのGemini 3.0 ProやOpenAIのGPT-5などのAIが、驚異的な高スコアで突破したことが、コロンビア大学、レンセラー工科大学、ノースカロライナ大学の研究者らによる画期的な研究で明らかになった。この成果は、以前のAIモデルがCFA試験で課題を抱えていた状況から劇的な飛躍を示しており、金融アナリストの職務、さらには金融業界全体の未来に深い示唆を与えている。

金融専門職の登竜門：CFA資格とは

Chartered Financial Analyst（CFA）資格は、投資管理と金融分析の分野における世界的に認められたプロフェッショナル認定である。その取得は極めて難易度が高く、金融業界でのキャリアを目指す者にとって、深い知識と高度な分析能力を持つことの証しとされている。試験は3つのレベルで構成されており、それぞれが異なるスキルと知識の階層を評価する。

レベルI: 投資の原則、倫理基準、数量分析、経済学、財務報告分析といった基礎的な知識を問う。主に独立した多肢選択問題（MCQ）形式である。
レベルII: 資産評価、企業金融、ポートフォリオ管理など、基礎知識の応用と分析能力に焦点を当てる。ケーススタディに基づいた多肢選択問題の形式が主となる。
レベルIII: ポートフォリオの構築と管理、富裕層向け投資戦略、パフォーマンス測定など、最も複雑な合成スキルと意思決定能力を評価する。多肢選択問題に加えて、構築応答問題（CRQ）が含まれることが特徴で、与えられたシナリオに対して自由記述で解答を作成する必要がある。

この段階的な構造は、受験者の金融知識が基礎から応用、そして最終的な複雑な意思決定へと、段階的に深まっていくことを保証する。合格率は各レベルで40～50%前後とされており、全レベルをパスするには通常数年を要する。

過去のAI：CFA試験の壁に直面

AIが高度な専門試験に挑戦する試みは以前から行われてきた。しかし、金融分野特有の複雑さと精密な計算、そして倫理的判断を要求されるCFA試験は、長らくAIにとって高い壁として立ちはだかっていた。

2023年時点の先行研究では、当時の主要な大規模言語モデル（LLM）はCFA試験において思わしい結果を出していなかったことが報告されている。例えば、OpenAIのChatGPT (GPT-3.5) はレベルIとレベルIIの両方で不合格となり、後継のGPT-4もレベルIはパスしたものの、レベルIIでは合格基準を満たせなかった。これは、単なる知識の検索や論理的推論だけではCFA試験の要求水準に達しないことを示唆していた。特に、より複雑なケーススタディや応用問題が増えるレベルII以上で、その限界が顕著であったと言える。

しかし、2024年に入ると状況は変化し始める。GPT-4oが純粋な言語モデルとして、ついにCFA試験の全3レベルをパスすることに成功した。この時点で、LLMがCFA試験の「成文化された知識」の多くを習得しつつあることが示されたが、それでもまだ「ほぼ完璧な」とまでは言えない状況であった。

このような背景があったからこそ、最新の「推論モデル」がどこまで金融分野の専門知識と応用能力を習得しているのか、その可能性を探る新たな研究が強く求められていたのである。

最新研究の全貌：推論モデルがCFA試験を席巻

今回発表されたコロンビア大学、レンセラー工科大学、ノースカロライナ大学の研究者らによる新しい研究は、AIの金融分野における能力が劇的に向上したことを明確に示した。この研究では、最新世代の推論モデルがCFA試験の全3レベルを、一部はほぼ完璧に近いスコアでパスしたことが報告されている。

研究者らは、980問に及ぶ模擬CFA試験問題を用いて、以下の6つの最先端推論モデルを評価した。

Gemini 3.0 Pro (Google)
Gemini 2.5 Pro (Google)
GPT-5 (OpenAI)
Grok 4 (xAI)
Claude Opus 4.1 (Anthropic)
DeepSeek-V3.1 (DeepSeek-AI)

使用された試験問題は、レベルI向けに540の独立した多肢選択問題（MCQ）を含む3つの模擬試験、レベルII向けに176のケースベース問題を含む2つの模擬試験、そしてレベルIII向けに264問（多肢選択問題と構築応答問題を含む）を含む3つの模擬試験から構成されていたという。

評価基準は、先行研究で確立された合格/不合格基準を採用し、各モデルのパフォーマンスを厳密に比較した。その結果、驚くべきことに、テストされたすべての推論モデルが、CFA試験の全3レベルにおいて合格基準をクリアしたのである。

驚異的なスコアの内訳：各レベルのトップランナー

AIモデルのCFA試験におけるパフォーマンスは、目覚ましいものであった。特に注目すべきは、各レベルで軒並み高得点を記録したことである。

レベル	最優秀モデル	スコア
レベルI（多肢選択問題）	Gemini 3.0 Pro	97.6%
レベルII（多肢選択問題）	GPT-5	94.3%
レベルIII（多肢選択問題）	Gemini 2.5 Pro	86.4%
レベルIII（構築応答問題）	Gemini 3.0 Pro	92.0%
総合ランキング	Gemini 3.0 Pro	1位

詳細な結果は以下の通りだ。

レベルI：基礎知識の徹底的な習得

最も基礎的な知識を問うレベルIでは、GoogleのGemini 3.0 Proが97.6%という記録的なハイスコアを達成し、圧倒的な知識定着と正確性を示した。これは、独立した多肢選択問題で構成されるレベルIにおいて、金融の基礎概念をほぼ完璧に理解し、正確に解答できる能力があることを意味する。GPT-5も96.1%、Gemini 2.5 Proも95.7%と続き、テストされたモデルの中で最も低いスコアであったDeepSeek-V3.1でさえ90.9%を記録しており、すべてのモデルが極めて高い水準で基礎知識をマスターしていることが明らかになった。

レベルII：応用と分析能力の証明

ケーススタディを通じて応用力と分析力を問うレベルIIでは、OpenAIのGPT-5が94.3%のスコアでトップに立った。Gemini 3.0 Proは93.2%、Gemini 2.5 Proは92.6%と、こちらも非常に高いスコアを記録している。研究者らは、これらのモデルがレベルIIで「ほぼ完璧な結果」を達成したと指摘しており、実際の金融シナリオに基づいた複雑な状況判断と分析において、AIが人間レベル、あるいはそれ以上の能力を発揮し始めたことを示している。

レベルIII：複雑な合成能力の開花

最も高度な合成スキルとポートフォリオ構築能力が問われるレベルIIIは、多肢選択問題と構築応答問題（CRQ）の組み合わせで構成される。ここでは、多肢選択問題においてGemini 2.5 Proが86.4%で最優秀であった。しかし、自由記述形式の構築応答問題では、後継モデルであるGemini 3.0 Proが92.0%という驚異的なスコアを叩き出し、前世代のGemini 2.5 Proの82.8%から大幅な飛躍を遂げた。この結果は、最新の推論モデルが単に正解を選ぶだけでなく、与えられた情報から複雑な解答を合成し、論理的に説明する能力を向上させていることを明確に示唆する。

全体的なパフォーマンスでは、Gemini 3.0 Proがトップに君臨し、金融専門知識の領域におけるAIの進化の最前線を走っていることを示した。

評価方法の透明性とその限界

この研究では、CFA InstituteのPractice Pack（レベルIおよびII）やAnalystPrepの模擬試験（レベルIII）といった、現在のカリキュラムに沿った模擬試験が使用された。特に、構築応答問題の採点にはo4-miniモデルが自動評価器として用いられたが、研究者らはこの自動採点が測定誤差や「冗長性バイアス」（詳細な回答ほど高得点を得やすい傾向）を導入する可能性があり、結果はモデルベースの近似値として解釈すべきであると注意を促している。将来的には、CFAチャーターホルダーによる人間検証を通じたグランドトゥルースの確立が求められる。

推論モデル進化の本質：知識の定着から複雑な合成へ

今回のCFA試験の成果は、単にAIが多くの知識を記憶し、正確に回答できるようになったという表面的な事実を超えた、より深い科学的本質を示している。それは、推論モデルが「知識の定着」から「複雑な情報の合成と応用」へとその能力を進化させているという点である。

「なぜ」推論モデルはCFA試験をパスできたのか？

この劇的な性能向上を可能にしたのは、「推論モデル」と呼ばれる最新世代のAIアーキテクチャである。従来のLLMが主に知識検索とパターンの認識に優れていたのに対し、推論モデルはより複雑な論理的関係性を理解し、与えられた情報から新たな結論を導き出す能力を高めている。

CFA試験、特にレベルIIのケーススタディやレベルIIIの構築応答問題は、単一の事実知識を問うものではない。複数の情報を横断的に統合し、特定の状況下での最適な金融戦略を立案したり、詳細な数理計算と論理的なステップを通じて結論に至るプロセスを説明したりすることが求められる。今回の研究結果、特にレベルIIIの構築応答問題でGemini 3.0 Proが92.0%という高スコアを記録したことは、モデルがこうした複雑な情報合成能力を身につけつつある強力な証拠であると言える。これは、金融アナリストが現実世界の問題に対して行う種類の推論をAIが模倣できることを示唆していると言えるだろう。

Chain-of-Thought (CoT) プロンプティングの役割

この推論能力の進化を支える重要な要素の一つが、「Chain-of-Thought (CoT)」プロンプティング戦略である。CoTは、モデルに最終的な答えを出す前に「段階的に思考する」ように指示する手法であり、その推論プロセスを明示させることで、より複雑な問題に対するモデルのパフォーマンスを向上させる狙いがある。

今回の研究では、CoTプロンプティングが初期のLLM（例：ChatGPT、GPT-4）に対しては、レベルIとレベルIIで7.6〜14.2%もの大幅な精度向上をもたらすことが示された。これは、これらの初期アーキテクチャにとって、明示的な推論ステップが知識の想起と応用能力のギャップを埋める上で極めて重要であったことを意味する。

しかし、最新世代の推論モデルでは、多肢選択問題（MCQ）に対するCoTプロンプティングの効果は一貫しない結果を示した。例えば、Gemini 3.0 ProはレベルI、II、IIIのMCQでCoTを利用するとわずかな成績低下が見られた。これは、現代のAIアーキテクチャが閉鎖型のタスク（MCQなど）においては、すでに内部的に高度な推論能力を持っているため、明示的なCoTが必ずしも必要ではない、あるいは過剰な指示が逆にノイズになる場合がある。

一方で、構築応答問題（CRQ）においては、CoTプロンプティングは依然として非常に効果的であった。Gemini 3.0 ProのCRQスコアはゼロショット（ZS）設定での86.6%からCoT設定で92.0%へと向上し、Claude Opus 4.1も73.4%から79.0%へと改善している。これは、オープンエンドのタスクで求められる複雑な「合成」能力においては、段階的な思考プロセスを明示的に構築するCoTが、依然としてモデルのパフォーマンスを引き出す上で強力なツールであることを示している。

歴史的文脈と全体像の中での位置づけ

今回の発見は、科学が連続的な知の営みであることを改めて浮き彫りにする。過去数年にわたるLLM研究の積み重ね、特に推論能力を強化するアーキテクチャとプロンプティング手法の進化が、今回のCFA試験全レベル突破という成果につながった。金融分野という「大きな地図」の中で見れば、AIは単に特定の計算やデータ処理を行うツールから、金融理論の広範な知識を統合し、複雑なシナリオを分析・評価し、具体的な投資戦略を提案する「準専門家」の領域へと足を踏み入れたと言えるだろう。

これは、従来の素粒子物理学における標準模型の実証や、宇宙論における観測的発見が既存の理論を補強するように、AIの進化が既存の知識体系をより深く理解し、応用する能力を獲得したことを示唆する。同時に、倫理的判断といった人間特有の領域が未だAIにとってのフロンティアであることも明らかになった点は、今後の研究の方向性を示す重要な手がかりとなる。

倫理的判断と現実世界とのギャップ

AIのCFA試験全レベル突破は画期的な成果である一方で、研究者たちはその限界と今後の課題についても正直に指摘している。これらの課題は、AIが真に金融アナリストの職務を代替できるかどうかを評価する上で不可欠な視点を提供する。

倫理的判断という壁

今回の研究で最も顕著な弱点として浮き彫りになったのは、AIモデルが倫理問題において一貫して低いパフォーマンスを示した点である。レベルIIでは、トップクラスの推論モデルでさえ、倫理問題に対するエラー率が17%から21%に達していた。これは、他の定量的・分析的問題でほぼ完璧なスコアを叩き出したことと比較すると、非常に高い数値である。

倫理的な質問は、単なる事実の想起や論理的な計算では答えられない。そこには、文脈の深い理解、微妙な人間的判断、そしてしばしば文化や社会規範に基づいた価値判断が求められる。これは、AIがまだ人間の持つ「常識」や「道徳観」といった、形式知化が困難な領域を十分に習得できていないことを示唆している。金融のプロフェッショナルにとって、倫理的行動は顧客の信頼を獲得し、市場の健全性を維持する上で不可欠であるため、この点はAIの金融分野での実用化に向けた最大の課題の一つとなるだろう。

「試験に合格すること」と「職務を遂行すること」の違い

研究者たちは、「試験に合格したからといって、そのモデルが職務を遂行できるわけではない」という重要な注意点も指摘している。CFA試験は、確かに広範な知識と分析スキルを評価するが、実際の金融アナリストの仕事はそれだけではない。

クライアントとの対話: 顧客のニーズを理解し、信頼関係を築き、複雑な金融商品を分かりやすく説明する能力は、人間特有のものである。
市場センチメントの評価: 定量データだけでは捉えられない、市場参加者の心理や感情を読み取る能力。
不完全な情報での意思決定: 常に完璧な情報が揃っているわけではない現実世界で、限られた情報の中で最善の判断を下す能力。
危機管理と交渉: 予期せぬ市場の変動や企業の危機に対し、迅速かつ柔軟に対応し、交渉を行う能力。

これらは、現在のAIモデルがベンチマーク試験で評価されるような「孤立した知識」や「形式化された問題」とは大きく異なる、複雑で文脈依存的なタスクである。AIがこれらの人間的な要素をどこまで模倣し、あるいは補完できるようになるかは、今後の研究と実証が待たれるところである。

データ汚染のリスク

LLMの評価において常に付きまとう課題が、訓練データ汚染（Data Contamination）のリスクである。今回の研究では、プロプライエタリで有料の最新模擬試験が使用されたものの、試験問題のパラフレーズされた内容や関連する議論が、公開データセットを通じてモデルの訓練データに間接的に漏洩した可能性は完全に排除できない。

もしモデルが単に訓練データ内で見知った問題を「記憶」していただけであれば、それは真の「推論能力」を反映しているとは言えない。研究者らは、完全にデータ汚染のない評価環境の確立が、AI研究における未解決の挑戦であると認めている。このリスクは、AIの真の能力を評価し、信頼性を確立する上で避けて通れない問題であり、今後のベンチマーク設計においてより厳密な対策が求められる。

自動採点の限界と冗長性バイアス

レベルIIIの構築応答問題（CRQ）の採点に自動評価器（o4-miniモデル）が用いられたことも、研究の限界として挙げられている。自動評価器は、詳細で包括的に聞こえる回答に対して、たとえ具体的な技術的精度が欠けていても高いスコアを与える「冗長性バイアス」の傾向を持つ可能性がある。また、人間であれば見抜けるような微妙な論理的矛盾を厳密に評価できない可能性も指摘されている。このため、CRQのスコアはモデルベースの近似値として解釈し、将来的には資格を持つCFAチャーターホルダーによる人間検証が必要であるとされている。

金融業界の未来：AIとの協調、あるいは変革

今回の研究成果は、金融業界に深い波紋を投げかけている。AIが金融の最高峰資格であるCFA試験をパスできるようになったという事実は、金融専門職の未来に対する根本的な問いを提起する。

定型業務の自動化と職務の再定義

過去のLLMの評価では、レベルIやIIの「成文化された知識」の領域での自動化の可能性が示唆されていた。しかし、今回の研究は、最新の推論モデルがレベルIIIで要求される複雑な合成能力、すなわち「エントリレベルからミドルレベルの金融アナリストの専門知識を凌駕し、将来的にはシニアレベルの金融アナリストの能力に到達する可能性がある」ことを示唆している。

これは、従来の財務分析、ポートフォリオ管理の初期段階、市場調査といった定型的な業務や、ある程度の分析・応用を要する業務が、今後AIによって高度に自動化される可能性が高いことを意味する。「金融と会計のタスクは自動化の主要な候補である」というRedditコメントは、この現実を的確に表している。

AIの導入により、金融アナリストの役割は大きく再定義されるだろう。データ収集、基本的な分析、レポート作成などはAIに任せ、人間はより高度な戦略的意思決定、顧客関係の構築、創造的な問題解決、そしてAIがまだ苦手とする倫理的判断や人間的な洞察力が必要な領域に注力するようになるだろう。

AIと人間の「協調」の時代へ

「また一つ専門職が成り立たなくなったのか？」というRedditのスレッドタイトルは、多くのプロフェッショナルが抱く懸念を代弁している。しかし、研究者自身も「試験に合格したからといって、モデルが職務をこなせるわけではない」と慎重な見方を示しているように、直ちに金融アナリストの職務が完全に消滅するわけではないだろう。

むしろ、AIは金融アナリストの「コパイロット（副操縦士）」として機能し、その生産性と分析能力を劇的に向上させるツールとなる可能性が高い。AIが膨大なデータを瞬時に分析し、複雑なシナリオを高速でシミュレーションすることで、人間はより深く、より戦略的に考える時間を確保できるようになる。

金融セクターにとっての課題は、AIが持つこの膨大な知識と推論能力を、実際のワークフローに「どう統合するか」であると研究は結論付けている。これは、AI技術の導入だけでなく、組織文化の変革、新しいスキルセットの育成、そして人間とAIが協力して価値を創出する新しいビジネスモデルの構築を意味する。

「顧客がこの試験にある質問だけに固執してくれたらいいのに」というコメントが示すように、現実世界の顧客からのデータは一貫性がなく、曖昧な情報も多い。そのような「悪い初期データ」が成功事例を打ち消す可能性も指摘されており、AIの能力を最大限に引き出すためには、データの品質管理や、人間がAIの出力を解釈し、現実世界に適用する能力がさらに重要になる。

「ロボアドバイザーはすでに存在する。99%の人々にとって、投資アドバイスはかなり単純だ」というコメントも、AIが提供する金融サービスの民主化とパーソナライズ化を加速させる可能性を示唆している。

金融AIの新たな地平と人間との共進化

今回の研究は、AI、特に推論モデルが、かつては人間の専門知識の独壇場と考えられていた金融分析の分野において、驚異的な進歩を遂げたことを強力に示している。Gemini 3.0 ProやGPT-5などのモデルがCFA試験の全レベルを高い精度で突破したことは、AIが単なる知識の検索ツールから、複雑な情報を合成し、応用する段階へと移行していることを明確に示した。

この成果は、金融業界における業務の自動化と効率化を加速させるだろう。しかし同時に、倫理的判断や人間的な洞察力、対人コミュニケーションといった、AIがまだ苦手とする領域の重要性を改めて浮き彫りにした。金融アナリストの未来は、AIによる完全な代替ではなく、AIとの協調を通じて、より高度で価値のある役割へと進化していく「共進化」の道筋を描く可能性が高い。

AIが金融サービスのアクセスを民主化し、より多くの人々に高度な金融知見を提供する一方で、人間はAIの能力を最大限に活用し、倫理的な枠組みの中で、より創造的で複雑な意思決定を行う役割を担うことになるだろう。金融業界は今、AIが提起する新たな問いに対し、その知識をいかに活用し、人間とAIが共存する未来をいかに設計していくかという、歴史的な転換点に立たされている。

論文

arXiv: Reasoning Models Ace the CFA Exams

この記事はいかがでしたか？

↑ トップへ戻る

// 次に読む

イリヤ・サツケバーが告げる「スケーリング則の終焉」とAI新時代の幕開け：SSIが目指す「真の全能」への道

AI、金融界の最高峰資格CFA試験を席巻：Gemini 3.0 Proなどが全レベルを突破し、金融アナリストの未来を問い直す

金融専門職の登竜門：CFA資格とは

過去のAI：CFA試験の壁に直面