テクノロジーと科学の最新の話題を毎日配信中!!

DeepSeekはOpenAIやGoogleと比較すると突出して事実を捏造する傾向にある

Y Kobayashi

2025年2月6日

DeepSeekが発表した推論モデル「DeepSeek-R1」は、優れた推論能力を持つ一方で、ハルシネーション(事実に基づかない情報を生成する現象)率が他社の主要モデルと比較して突出して高いことが、Vectaraの調査で明らかになった。特に基板となった「V3」モデルと比較しても更に悪化しているようだ。

DeepSeek-R1、ハルシネーション率が突出

DeepSeekから発表された推論モデル「DeepSeek-R1」は、その驚異的な推論能力で業界を席巻した。OpenAIの「o1」モデルに匹敵すると評価される一方で、開発コストはわずか600万ドルとされ、さらにOpenAI「o1」と比較して約25分の1という低コストでの運用、MITライセンスでのオープンソース公開という点も大きな注目を集めた。

しかし、企業向けAIスタートアップのVectaraによる最新の評価で、「DeepSeek-R1」は主要なAIモデルと比較して、憂慮すべきほど高いハルシネーション(幻覚)率を示すことが明らかになった。

Vectaraは、ハルシネーション評価モデル(HHEM)GoogleのFACTS Groundingを用いて、DeepSeek-R1およびDeepSeek-V3のハルシネーション率を測定したが、その結果、DeepSeek-R1のハルシネーション率は、VectaraのHHEM 2.1で14.3%と、DeepSeek-V3の3.9%を大幅に上回った。これは、OpenAI、Google、Anthropicといった主要AIモデルと比較しても際立って高い数値となる。

モデルハルシネーション率
Google Gemini-2.0-Flash-0010.7 %
OpenAI-o3-mini-high-reasoning0.8 %
GPT-4o1.5 %
OpenAI-o12.4 %
DeepSeek-V33.9 %
Anthropic Claude-3-opus10.1 %
DeepSeek-R114.3 %
Anthropic Claude-3-sonnet16.30%

Vectaraが公開している「Hallucination Leaderboard」を参照すると、主要モデルの幻覚率がいかに低いかが明確になり、各社がかなりの改善を行っていることが分かるだろう。例えば、Google Gemini-2.0-Flash-001は0.7%、OpenAI GPT-4oは1.5%、Anthropic Claude-3-5-sonnetは4.6%というハルシネーション率だ。反面、DeepSeek-R1の14.3%という数値は、これらのモデルと比較して、数倍から数十倍も高い幻覚率を示していることになる。

Vectara社CEO「DeepSeek R1は他のAIモデルより警報レベルで幻覚が多い」

Vectara社のOfer Mendelevitch開発責任者はSemafor誌に対し、「DeepSeekのR1モデルは、他のAIモデルよりも警報レベルで多くの答えを捏造する」と述べている。

Vectaraは、推論能力を強化したLLMが、一般的なLLMよりもハルシネーションを起こしやすい可能性があると指摘している。しかし、GPTシリーズのテストでは、HHEM 2.1の結果とGoogleのFACTS Groundingの結果に一貫性がなかった。 このことから、推論能力の向上とハルシネーションの抑制は、必ずしもトレードオフの関係にあるとは言い切れない。しかし、DeepSeekのモデルは、このバランスを取ることに苦労している可能性がある。

Mendelevitch氏は「モデルを推論のような特定の能力のためにトレーニングする場合、他の多くの能力を維持するように注意する必要がある」と述べている。その上で、「DeepSeekはそこの点で十分な仕事をしなかった。彼らはすぐに修正すると予想している」とコメントした。

RAG構築におけるDeepSeek R1の注意点と今後の展望

DeepSeek R1は、OpenAI O1モデルと比較して大幅に低いコストで利用可能であり、オープンソースであるという利点も持ち合わせている。しかし、RAG(Retrieval-Augmented Generation)やAgentic RAGソリューションを構築する際には、その高いハルシネーション率を十分に考慮する必要があるだろう。

特に、ファクトチェックが重要なアプリケーションにおいては、DeepSeek R1の利用は慎重に検討すべきと言える。もしDeepSeek R1を利用するのであれば、ハルシネーション検出・抑制技術と組み合わせるなどの対策が不可欠となるだろう。

DeepSeekには、今回のVectaraの評価結果を真摯に受け止め、早急に幻覚率の改善に取り組むことが期待される。Mendelevitch氏もコメントしているように、DeepSeekがR1のハルシネーション問題を修正し、推論能力と忠実性を両立させた、より信頼性の高いモデルを開発することを期待したいところだ。


Sources

Follow Me !

\ この記事が気に入ったら是非フォローを! /

フォローする

コメントする