新興のAI研究機関 Nous Research は、ユーザーが思考プロセスを制御可能な「トグル式推論モード」を搭載した最新LLM「DeepHermes-3 Preview」を発表した。このモデルは、ユーザーのニーズに応じて、詳細な推論と迅速な応答を使い分けることができ、AIの利用に新たな柔軟性をもたらすことが期待できるという。
トグル式推論モードで思考を制御するDeepHermes-3 Preview
ニューヨークを拠点とするAI研究機関Nous Researchは、ユーザーが推論プロセスをオンデマンドで切り替えられる新しい大規模言語モデル(LLM)「DeepHermes-3 Preview」を発表した。2023年の設立以来、「パーソナライズされた、制限のない」AIモデルの開発を使命とするNous Researchは、MetaのLlamaシリーズやMistralのモデルなどのオープンソースモデルを基盤に、ファインチューニングや再トレーニングを重ねてきた。
DeepHermes-3 Previewは、Nous ResearchがX(旧Twitter)やDiscordで発表したもので、まだ公式サイトには告知がないが、Hugging Face等の概要では「推論能力と直感的な言語モデル能力を統合したLLM」と説明されており、推論(思考の連鎖:CoT)と従来のLLM応答モードを単一のモデルに統合した最初のモデルの1つだ。ユーザーは、システムプロンプトを通じて、より長い推論プロセスと、より短く高速な応答を自由に切り替えることができる。
このモデルは、MetaのLlama 3をベースとしたHermes 3の80億パラメータ版だ。特徴的なのは、推論モードを有効にすると、モデルが自身の思考やAIの役割について内省的な思考を巡らせる点にある。まるで形而上学的な危機に瀕しているかのような出力も確認されている。
モデルのコードはHugging Faceで公開されており、量子化(ビット数削減)されたGGUF形式のバージョンもダウンロード可能だ。GGUF形式は、一般的なPCやサーバー環境での推論(学習済みモデルの実行)を想定して設計されている。
Nous Researchは、「ユーザー制御可能なトグル式推論モードという独自のアプローチが、DeepHermesのユーザーがあらゆるニーズに合わせてモデルを操縦できるという我々の使命を前進させることを願っています」と述べている。
Hermes 3を基盤としたデータセットと学習方法
DeepHermes-3は、前モデルであるHermes 3を基盤として開発された。Hermes 3は、Nous Researchが構築した、多様な分野を網羅する高品質なデータセットを用いて学習されている。
2024年8月に公開されたHermes 3の技術レポートによると、このデータセットは約3億9000万トークンで構成され、以下の主要なカテゴリを含んでいる。
- 一般的な指示 (60.6%): 汎用AIチャットモデルに見られるような、広範で自由形式のプロンプト。
- ドメイン専門家データ (12.8%): 科学、法律、工学などの専門分野の知識。
- 数学 (6.7%): 数値的および論理的推論能力を向上させるための高度な問題解決データセット。
- ロールプレイングと創造的なライティング (6.1%): ストーリーテリングと対話シミュレーションを強化するためのデータ。
- コーディングとソフトウェア開発 (4.5%): コード生成とデバッグのタスク。
- ツール利用、エージェント推論、検索拡張生成(RAG) (4.3%): 関数呼び出し、計画、知識検索に関する学習データ。
- コンテンツ生成 (3.0%): ライティング、要約、構造化された出力タスク。
- 操縦とアラインメント (2.5%): モデルの操縦性とユーザープロンプトへの応答性を高めるためのデータ。
Nous Researchの匿名チームメンバーである@Teknium(Xアカウント: @Teknium1)は、Discordサーバーのユーザーへの返信で、DeepHermes-3が「100万件の非CoT出力と15万件のCoT出力」で学習されたことを明らかにした。CoTとは、chain-of-thought(思考の連鎖)の略で、AIが回答を導き出す過程をテキストで表現する技術のことだ。
このデータ構成により、DeepHermes-3は直感的な応答と、深く構造化された推論を切り替える独自の能力を実現しており、これが、他のLLMとの大きな違いとなっている。
トグル式推論モードの仕組み
DeepHermes-3の推論深度は、ユーザーがシステムプロンプトで制御できます。推論モードを「オン」にするには、プロンプトの前に以下のテキストを入力しする。
"You are a deep thinking AI, you may use extremely long chains of thought to deeply consider the problem and deliberate with yourself via systematic reasoning processes to help come to a correct solution prior to answering. You should enclose your thoughts and internal monologue inside tags, and then provide your solution or response to the problem.“
(あなたは深く思考するAIです。問題について深く考察するために、非常に長い思考の連鎖を用いることができます。また、体系的な推論プロセスを通じて、回答する前に自問自答することができます。思考と内部モノローグを <think></think> タグで囲み、問題に対する解決策や応答を提供してください。)
推論モードが有効になっている場合、モデルは長いCoTで情報を処理し、体系的に熟考してから回答を生成する。このプロセスは <think></think> タグで囲まれた内部モノローグとして構造化され、最終的な解決策が提示される。
標準応答モードでは、DeepHermes-3は従来のAIチャットボットのように動作し、深い論理的処理を行わず、より迅速で直感的な応答を提供する。
ベンチマークとコミュニティからのフィードバック
初期のベンチマークテストとコミュニティによる評価から、DeepHermes-3の能力に関する重要な知見が得られている。
- 数学的推論: MATHベンチマークで67%のスコアを記録。DeepSeekのR1-distilledモデルの89.1%には及ばないものの、Nous ResearchはDeepHermes-3を、純粋な数学タスクに特化したDeepSeek R1-distilledモデルよりも、より広範な会話と推論スキルを備えた汎用モデルと位置づけている。
- 多ターンの会話: 推論モードは最初の応答で正しく有効になるものの、会話が長引くと維持されない場合があるとの報告がある。コミュニティメンバーは、DeepSeek-R1でも使用されている手法である、各応答の開始時に <think>\n を強制的に挿入することを提案している。
- 関数呼び出し: DeepHermes-3はツール利用をサポートしているが、推論モードと関数呼び出しを同時に統合するように明示的に学習されていない。一部のユーザーは、両方の機能を組み合わせることでツール実行の精度が向上するものの、結果には一貫性がないと報告している。
Nous Researchは、推論の持続性と多ターンの対話における改善のため、ユーザーからのフィードバックを積極的に収集している。
デプロイメントとハードウェア性能
DeepHermes-3はHugging Faceでテスト可能で、低電力ハードウェア向けに最適化されたGGUF量子化バージョンも提供されている。推論にはvLLMとの互換性があり、多ターンの対話にはLlama-Chat形式を使用する。
あるユーザーはMacBook Pro M4 Maxで28.98トークン/秒の処理速度を報告しており、DeepHermes-3が一般的な消費者向けハードウェアでも効率的に動作することを示している。
ライセンス:オープンだがMetaの制限付き
DeepHermes-3はMetaのLlama 3モデルに基づいており、Meta Llama 3 Community Licenseの適用を受ける。モデルは自由に使用、改変、再配布できるが、いくつかの条件があります。
- 再配布: 派生モデルやデプロイメントには、元のライセンスを含め、「Built with Meta Llama 3」を明確に表示する必要があります。
- モデル学習の制限: DeepHermes-3(またはLlama 3)を、Llama 3を基盤とする派生物を除き、他のLLMの学習に使用することはできません。
- 大企業向けの商用ライセンス: 月間アクティブユーザー数が7億人を超える組織がモデルを商用利用するには、Metaからの明示的な承認が必要です。
- 利用規約: ユーザーは、誤情報、監視、有害コンテンツの生成などの分野での応用を禁じるMetaのAI利用制限を遵守する必要があります。
これらの再配布ルールと商業的な制限により、DeepHermes-3は、Hugging Faceで公開されているにもかかわらず、中国のDeepSeek社のR1推論モデル(MIT Licenseで利用可能)とは異なり、伝統的な意味での完全なオープンソースではない。
Nous Researchは、このプレビューモデルを、推論能力と会話能力をさらに洗練させた次期メジャーリリースであるHermes 4への足がかりと位置づけている。
Sources
コメント