DeepSeekが発表した推論モデル「DeepSeek-R1」は、優れた推論能力を持つ一方で、ハルシネーション(事実に基づかない情報を生成する現象)率が他社の主要モデルと比較して突出して高いことが、Vectaraの調査で明らかになった。特に基板となった「V3」モデルと比較しても更に悪化しているようだ。
DeepSeek-R1、ハルシネーション率が突出
DeepSeekから発表された推論モデル「DeepSeek-R1」は、その驚異的な推論能力で業界を席巻した。OpenAIの「o1」モデルに匹敵すると評価される一方で、開発コストはわずか600万ドルとされ、さらにOpenAI「o1」と比較して約25分の1という低コストでの運用、MITライセンスでのオープンソース公開という点も大きな注目を集めた。
しかし、企業向けAIスタートアップのVectaraによる最新の評価で、「DeepSeek-R1」は主要なAIモデルと比較して、憂慮すべきほど高いハルシネーション(幻覚)率を示すことが明らかになった。
Vectaraは、ハルシネーション評価モデル(HHEM)とGoogleのFACTS Groundingを用いて、DeepSeek-R1およびDeepSeek-V3のハルシネーション率を測定したが、その結果、DeepSeek-R1のハルシネーション率は、VectaraのHHEM 2.1で14.3%と、DeepSeek-V3の3.9%を大幅に上回った。これは、OpenAI、Google、Anthropicといった主要AIモデルと比較しても際立って高い数値となる。
モデル | ハルシネーション率 |
---|---|
Google Gemini-2.0-Flash-001 | 0.7 % |
OpenAI-o3-mini-high-reasoning | 0.8 % |
GPT-4o | 1.5 % |
OpenAI-o1 | 2.4 % |
DeepSeek-V3 | 3.9 % |
Anthropic Claude-3-opus | 10.1 % |
DeepSeek-R1 | 14.3 % |
Anthropic Claude-3-sonnet | 16.30% |
Vectaraが公開している「Hallucination Leaderboard」を参照すると、主要モデルの幻覚率がいかに低いかが明確になり、各社がかなりの改善を行っていることが分かるだろう。例えば、Google Gemini-2.0-Flash-001は0.7%、OpenAI GPT-4oは1.5%、Anthropic Claude-3-5-sonnetは4.6%というハルシネーション率だ。反面、DeepSeek-R1の14.3%という数値は、これらのモデルと比較して、数倍から数十倍も高い幻覚率を示していることになる。

Vectara社CEO「DeepSeek R1は他のAIモデルより警報レベルで幻覚が多い」
Vectara社のOfer Mendelevitch開発責任者はSemafor誌に対し、「DeepSeekのR1モデルは、他のAIモデルよりも警報レベルで多くの答えを捏造する」と述べている。
Vectaraは、推論能力を強化したLLMが、一般的なLLMよりもハルシネーションを起こしやすい可能性があると指摘している。しかし、GPTシリーズのテストでは、HHEM 2.1の結果とGoogleのFACTS Groundingの結果に一貫性がなかった。 このことから、推論能力の向上とハルシネーションの抑制は、必ずしもトレードオフの関係にあるとは言い切れない。しかし、DeepSeekのモデルは、このバランスを取ることに苦労している可能性がある。
Mendelevitch氏は「モデルを推論のような特定の能力のためにトレーニングする場合、他の多くの能力を維持するように注意する必要がある」と述べている。その上で、「DeepSeekはそこの点で十分な仕事をしなかった。彼らはすぐに修正すると予想している」とコメントした。
RAG構築におけるDeepSeek R1の注意点と今後の展望
DeepSeek R1は、OpenAI O1モデルと比較して大幅に低いコストで利用可能であり、オープンソースであるという利点も持ち合わせている。しかし、RAG(Retrieval-Augmented Generation)やAgentic RAGソリューションを構築する際には、その高いハルシネーション率を十分に考慮する必要があるだろう。
特に、ファクトチェックが重要なアプリケーションにおいては、DeepSeek R1の利用は慎重に検討すべきと言える。もしDeepSeek R1を利用するのであれば、ハルシネーション検出・抑制技術と組み合わせるなどの対策が不可欠となるだろう。
DeepSeekには、今回のVectaraの評価結果を真摯に受け止め、早急に幻覚率の改善に取り組むことが期待される。Mendelevitch氏もコメントしているように、DeepSeekがR1のハルシネーション問題を修正し、推論能力と忠実性を両立させた、より信頼性の高いモデルを開発することを期待したいところだ。
Sources