OpenAIの新しい「Deep Research」エージェントは依然として誤りやすいツールに過ぎず、人間レベルの専門家ではない

2025年2月12日

当記事のリンクにはアフィリエイト広告が含まれています。

OpenAIの「Deep Research」は、人間の専門家なら何時間もかかる作業を数分で完了すると約束する、最新の人工知能（AI）ツールである。

ChatGPT Proの機能として組み込まれ、訓練された分析者に匹敵する研究アシスタントとして売り出されており、自律的にウェブを検索し、情報源をまとめ、構造化されたレポートを提供する。さらに、困難なAIベンチマークである「Humanity’s Last Exam (HLE)」で26.6%のスコアを獲得し、多くのモデルを上回る性能を示した。

しかし、Deep Researchは期待されるほどの性能には達していない。洗練されたレポートを作成する一方で、深刻な欠陥も抱えている。実際に試用したジャーナリストらによると、Deep Researchは重要な詳細を見落とし、最新の情報の処理に苦心し、時には事実を捏造することもある。

OpenAIはツールの制限事項としてこの点を指摘している。同社はまた、「内部評価によると、既存のChatGPTモデルと比べて顕著に低い頻度ではあるものの、応答において事実を捏造したり、誤った推論を行うことがある」と述べている。

AIモデルは人間とは異なる方法で「知識を持つ」ため、信頼性の低いデータが混入することは驚くべきことではない。

AI「リサーチアナリスト」という概念は、多くの疑問も提起する。機械が―どれほど強力であっても―本当に訓練された専門家に取って代わることができるのか？知識労働にどのような影響があるのか？そしてAIは本当に私たちの思考を改善しているのか、それとも単に思考を停止させやすくしているだけなのか？

「Deep Research」とは何か、そして誰のためのものか？

金融、科学、政策、法律、エンジニアリングの専門家、そして学者、ジャーナリスト、ビジネスストラテジストをターゲットとし、Deep ResearchはChatGPTで展開された最新の「エージェント体験」である。数分で調査の重労働を完了することを約束している。

現在、Deep Researchは月額200米ドルで米国のChatGPT Proユーザーのみが利用可能である。OpenAIによると、今後数ヶ月のうちにPlus、Team、Enterpriseユーザーにも展開され、将来的にはより費用対効果の高いバージョンも計画されている。

welp, I paid for chatgpt pro deep research (it does work via vpn).often impressive, but it doesn't show its work so it's hard to trust, at least when starting out, whether it's actual built the computational model that it claims it has to answer the question or just hallucinated it
— Theo Sanderson (@theo.io) 2025-02-03T23:31:29.556Z

標準的なチャットボットが素早い応答を提供するのとは異なり、Deep Researchは構造化されたレポートを作成するために複数のステップを踏む：

ユーザーがリクエストを提出する。市場分析から法的事例の要約まで、あらゆるものが対象となる。
AIがタスクを明確化する。研究範囲を絞り込むために追加質問を行うことがある。
エージェントがウェブを検索する。ニュース記事、研究論文、オンラインデータベースを含む何百もの情報源を自律的に閲覧する。
調査結果を統合する。AIが重要なポイントを抽出し、構造化されたレポートにまとめ、情報源を引用する。
最終レポートが提供される。5分から30分以内に、ユーザーは調査結果をまとめた複数ページの文書―場合によってはPhDレベルの論文―を受け取る。

一見すると、知識労働者にとって夢のようなツールに思える。しかし、詳しく見ると重大な制限があることが分かる。

多くの初期テストで以下のような欠点が露呈している：

文脈を理解していない。AIは要約はできるが、何が重要かを完全には理解していない。
新しい展開を無視する。重要な法的判断や科学的更新を見落としている。
事実を捏造する。他のAIモデルと同様に、自信を持って虚偽の情報を生成することがある。
事実と虚構を区別できない。信頼できる情報源と信頼できない情報源を区別できない。

OpenAIはそのツールが人間のアナリストに匹敵すると主張しているが、AIには良質な研究に不可欠な判断力、精査能力、専門知識が必然的に欠けている。

Bluesky Social

William Gunn (@metasynthesis.net) I've done a in-depth evaluation of ChatGPT Deep Research. Top-line finding: It's much better than 4o, but 4o was terrible at research. I still get the sense tha...

AIが代替できないもの

ChatGPTは、わずかなプロンプトでWebを検索しレポートを作成できる唯一のAIツールではない。特筆すべきは、OpenAIのリリースからわずか24時間後に、Hugging Faceがほぼ同等の性能を持つ無料のオープンソースバージョンをリリースしたことである。

「人間レベル」の研究用として売り込まれるディープリサーチや他のAIツールの最大のリスクは、AIが人間の思考を代替できるという錯覚である。AIは情報を要約することはできるが、自身の前提に疑問を投げかけたり、知識のギャップを強調したり、創造的に考えたり、異なる視点を理解したりすることはできない。

そして、AI生成の要約は熟練した人間の研究者の深さには及ばない。

どれほど高速であっても、AIエージェントは人間の知性の代替ではなく、単なるツールに過ぎない。知識労働者にとって、AIが複製できないスキル―批判的思考、事実確認、深い専門知識、創造性―に投資することがこれまで以上に重要である。

AIリサーチツールを使用したい場合は、責任を持って使用する方法がある。AIの思慮深い使用は、正確性や深さを犠牲にすることなく研究を強化することができる。文書の要約など効率性のためにAIを使用し、意思決定には人間の判断を残すことができる。

常に情報源を確認すること。AI生成の引用は誤解を招く可能性がある。結論を盲目的に信用せず、批判的思考を適用し、信頼できる情報源でクロスチェックを行うこと。健康、司法、民主主義などの重要な話題については、AI の調査結果を専門家の意見で補完すること。

別の見方を説得しようとする広告宣伝にもかかわらず、生成AIにはまだ多くの制限がある。情報を創造的に統合し、前提に疑問を投げかけ、批判的に思考できる人間は引き続き需要があるだろう―AIはまだ彼らに取って代わることはできない。

本記事は、シドニー大学ビジネス情報システム上級講師Raffaele F Ciriello氏によって執筆され、The Conversationに掲載された記事「OpenAI’s new ‘deep research’ agent is still just a fallible tool – not a human-level expert」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。