DeepSeek-R1のハルシネーション率はどのくらいですか？

Vectaraの調査によると14.3%であり、OpenAIやGoogleの主要モデルと比較して突出して高い数値である。

DeepSeek-R1とV3で事実の捏造傾向に違いはありますか？

推論モデルであるR1のハルシネーション率は14.3%で、基盤モデルであるV3の3.9%よりも大幅に悪化している。

DeepSeek-R1のハルシネーションが他社より多い理由は？

推論能力の強化に特化したトレーニングの結果、事実の忠実性を維持するバランスを欠いた可能性があると指摘されている。

RAG構築でDeepSeek-R1を利用する際の注意点は？

事実誤認のリスクが高いため、ファクトチェックが重要な用途ではハルシネーション検出技術との併用などの対策が不可欠である。

推論能力が高いAIほどハルシネーションが起きやすいのですか？

GPTシリーズでは推論向上と抑制に一貫性がないため、必ずしもトレードオフではないが、DeepSeekは両立に苦労している状況だ。

テクノロジー

DeepSeekはOpenAIやGoogleと比較すると突出して事実を捏造する傾向にある

Y Kobayashi 2025年2月6日

約 5 分 6 閲覧

この記事のポイント

### Editorial Brief
**何が起きた**: Vectaraの調査により、DeepSeek-R1のハルシネーション率が14.3%に達し、基盤モデルのV3（3.9%）や他社主要モデルと比較して突出して高いことが判明した。
**なぜ重要か**: 低コストで高い推論能力を持つ一方、事実に基づかない回答の生成率が高いため、RAG構築やファクトチェックが必須の業務用途では採用に慎重な判断が求められる。
**次に見るべき点**: 推論能力を維持したままハルシネーションを抑制できるか、開発元によるモデルの修正時期や、外部ツールを用いた検出・抑制技術による実用性の向上が焦点となる。

DeepSeekはOpenAIやGoogleと比較すると突出して事実を捏造する傾向にある

DeepSeekが発表した推論モデル「DeepSeek-R1」は、優れた推論能力を持つ一方で、ハルシネーション（事実に基づかない情報を生成する現象）率が他社の主要モデルと比較して突出して高いことが、Vectaraの調査で明らかになった。特に基板となった「V3」モデルと比較しても更に悪化しているようだ。

DeepSeek-R1、ハルシネーション率が突出

DeepSeekから発表された推論モデル「DeepSeek-R1」は、その驚異的な推論能力で業界を席巻した。OpenAIの「o1」モデルに匹敵すると評価される一方で、開発コストはわずか600万ドルとされ、さらにOpenAI「o1」と比較して約25分の1という低コストでの運用、MITライセンスでのオープンソース公開という点も大きな注目を集めた。

しかし、企業向けAIスタートアップのVectaraによる最新の評価で、「DeepSeek-R1」は主要なAIモデルと比較して、憂慮すべきほど高いハルシネーション（幻覚）率を示すことが明らかになった。

Vectaraは、ハルシネーション評価モデル（HHEM）とGoogleのFACTS Groundingを用いて、DeepSeek-R1およびDeepSeek-V3のハルシネーション率を測定したが、その結果、DeepSeek-R1のハルシネーション率は、VectaraのHHEM 2.1で14.3%と、DeepSeek-V3の3.9%を大幅に上回った。これは、OpenAI、Google、Anthropicといった主要AIモデルと比較しても際立って高い数値となる。

モデル	ハルシネーション率
Google Gemini-2.0-Flash-001	0.7 %
OpenAI-o3-mini-high-reasoning	0.8 %
GPT-4o	1.5 %
OpenAI-o1	2.4 %
DeepSeek-V3	3.9 %
Anthropic Claude-3-opus	10.1 %
DeepSeek-R1	14.3 %
Anthropic Claude-3-sonnet	16.30%

Vectaraが公開している「Hallucination Leaderboard」を参照すると、主要モデルの幻覚率がいかに低いかが明確になり、各社がかなりの改善を行っていることが分かるだろう。例えば、Google Gemini-2.0-Flash-001は0.7%、OpenAI GPT-4oは1.5%、Anthropic Claude-3-5-sonnetは4.6%というハルシネーション率だ。反面、DeepSeek-R1の14.3%という数値は、これらのモデルと比較して、数倍から数十倍も高い幻覚率を示していることになる。

Vectara社CEO「DeepSeek R1は他のAIモデルより警報レベルで幻覚が多い」

Vectara社のOfer Mendelevitch開発責任者はSemafor誌に対し、「DeepSeekのR1モデルは、他のAIモデルよりも警報レベルで多くの答えを捏造する」と述べている。

Vectaraは、推論能力を強化したLLMが、一般的なLLMよりもハルシネーションを起こしやすい可能性があると指摘している。しかし、GPTシリーズのテストでは、HHEM 2.1の結果とGoogleのFACTS Groundingの結果に一貫性がなかった。このことから、推論能力の向上とハルシネーションの抑制は、必ずしもトレードオフの関係にあるとは言い切れない。しかし、DeepSeekのモデルは、このバランスを取ることに苦労している可能性がある。

Mendelevitch氏は「モデルを推論のような特定の能力のためにトレーニングする場合、他の多くの能力を維持するように注意する必要がある」と述べている。その上で、「DeepSeekはそこの点で十分な仕事をしなかった。彼らはすぐに修正すると予想している」とコメントした。

RAG構築におけるDeepSeek R1の注意点と今後の展望

DeepSeek R1は、OpenAI O1モデルと比較して大幅に低いコストで利用可能であり、オープンソースであるという利点も持ち合わせている。しかし、RAG（Retrieval-Augmented Generation）やAgentic RAGソリューションを構築する際には、その高いハルシネーション率を十分に考慮する必要があるだろう。

特に、ファクトチェックが重要なアプリケーションにおいては、DeepSeek R1の利用は慎重に検討すべきと言える。もしDeepSeek R1を利用するのであれば、ハルシネーション検出・抑制技術と組み合わせるなどの対策が不可欠となるだろう。

DeepSeekには、今回のVectaraの評価結果を真摯に受け止め、早急に幻覚率の改善に取り組むことが期待される。Mendelevitch氏もコメントしているように、DeepSeekがR1のハルシネーション問題を修正し、推論能力と忠実性を両立させた、より信頼性の高いモデルを開発することを期待したいところだ。

Sources

Vectara: DeepSeek-R1 hallucinates more than DeepSeek-V3
Semafor: DeepSeek hallucinates alarmingly more than other AI models

テーマ

この記事はいかがでしたか？

一緒に読みたい・使いたいアイテム

※本リンクから購入いただくと、当サイトの運営・記事制作費に充てられます（Amazonアソシエイト参加）

↑ トップへ戻る

// 次に読む

Square開発元のBlockが新AIエージェント「Goose」をオープンソース化、セッション中の機能拡張が可能に

DeepSeekはOpenAIやGoogleと比較すると突出して事実を捏造する傾向にある

DeepSeek-R1、ハルシネーション率が突出

Vectara社CEO「DeepSeek R1は他のAIモデルより警報レベルで幻覚が多い」

RAG構築におけるDeepSeek R1の注意点と今後の展望

関連する事物

テーマ

この記事はいかがでしたか？

ClaudeのAPI費用が激減。システムプロンプトを「画像」として読ませる新ツールの仕組み

全固体電池の実用化を阻む「デンドライト」の真犯人が判明：寿命と充電速度を3倍にするMITの新発見

LenovoのノートPCに中国YMTC製SSDが搭載され始める：実測で見えた性能面の課題とは

核融合プラズマから直接電気を取り出す：Realta Fusionが史上初の民間実証に成功

量子コンピュータの強力な対抗馬。既存工場で量産可能な「スピントロニクス」とは

全固体電池の実用化を阻む「デンドライト」の真犯人が判明：寿命と充電速度を3倍にするMITの新発見

スパコンの限界を突破する「量子ハイブリッド計算」が、核融合エネルギーの実用化を加速する

Wi-Fiルーター市場が2021年比34%減、勝ったのはASUS、Google、Eeroの3社だけ

USBオーディオがAMD機で途切れやすい理由はIntelとのバス設計思想の差にあった

メモリ相場は一枚岩でない、旧世代DRAM高とNAND安が同時進行

DeepSeek-R1、ハルシネーション率が突出

Vectara社CEO「DeepSeek R1は他のAIモデルより警報レベルで幻覚が多い」

RAG構築におけるDeepSeek R1の注意点と今後の展望

関連する事物

テーマ

この記事はいかがでしたか？

関連記事

Square開発元のBlockが新AIエージェント「Goose」をオープンソース化、セッション中の機能拡張が可能に

Deep Cogito、新AI「Cogito v1」発表 &#8211; 独自推論でLlama/DeepSeek超えの性能を達成

Google、最新AI「Gemini 2.5 Pro」発表 &#8211; 推論能力強化モデルがベンチマークで競合を凌駕

Deep Cogito、新AI「Cogito v1」発表 – 独自推論でLlama/DeepSeek超えの性能を達成

Google、最新AI「Gemini 2.5 Pro」発表 – 推論能力強化モデルがベンチマークで競合を凌駕