Zoom Communicationsの研究チームが開発した「Chain of Draft(CoD)」と呼ばれる新しいAI推論手法により、大規模言語モデル(LLM)の運用コストを最大92%削減しながら、精度を維持または向上させることが可能になった。この技術は特に企業のAI導入において、高コストと応答遅延という二つの大きな障壁を解消する可能性を秘めている。
人間の思考過程を模倣した効率的なAI推論
大規模言語モデル(LLM)は、複雑な推論タスクにおいて目覚ましい成果を上げているが、その計算コストと応答遅延が課題となっている。従来の手法である「Chain-of-Thought (CoT) 」は、段階的な推論によってAIの性能を向上させる一方で、冗長な説明生成により計算資源を大量に消費していた。
今回新たに提案された「Chain of Draft(CoD)」は、人間が複雑な問題を解決する際のアプローチからインスピレーションを得ている。人間は数学問題やロジックパズルに取り組む際、すべての詳細を言語化するのではなく、重要なポイントのみを簡潔なメモとして書き留める傾向がある。CoDはこの行動パターンを模倣し、AIに各推論ステップを最大5語程度の簡潔な表現に制限するよう指示する。
「複雑なタスクを解決する際、私たちは数学問題を解いたり、エッセイを書いたり、コーディングをする場合でも、進捗に役立つ重要な情報だけをメモします。この行動を模倣することで、LLMは冗長な推論なしに解決策に向かって効率的に進めるようになります」と研究者たちは説明している。
印象的な性能改善とコスト削減効果
従来の推論手法である「Chain of Thought(CoT)」が詳細なステップバイステップの思考過程を重視するのに対し、CoDはミニマリスト的なアプローチを取る。例えば、ある算術問題では:
- 標準的なプロンプト:「8」(直接答えを出力)
- Chain of Thought:「最初、ジェイソンは20個のロリポップを持っていました。デニーに何個か渡した後、ジェイソンには12個のロリポップが残っています。ジェイソンがデニーに渡したロリポップの数を見つけるには、初期の数から残りの数を引く必要があります…」(詳細な説明)
- Chain of Draft:「20 – x = 12; x = 20 – 12 = 8」(簡潔な式のみ)
と、かなり簡潔になっているのが見て取れるだろう。
CoDは、CoTと同様に段階的な推論を行うプロンプトを使用するが、各ステップにおける単語数を最大5語に制限する。このシンプルな変更により、CoDは推論の正確性を維持しつつ、大幅な効率化を実現するのだ。
研究チームは複数のベンチマークテストでCoDの有効性を検証した。算術推論(GSM8k)、常識推論(日付理解とスポーツ理解)、記号推論(コインフリップタスク)など様々なタスクでCoDは従来のCoTと同等以上の精度を維持しながら、トークン数を大幅に削減した。
特に注目すべき結果として、Claude 3.5 Sonnetがスポーツ関連の質問を処理した例では:
- 平均出力トークンが189.4から14.3へ(92.4%削減)
- 精度が93.2%から97.3%へ向上
また、算術推論タスク(GSM8k)では:
- GPT-4oとClaude 3.5 Sonnetの両方で、標準プロンプトの約53-65%の精度から、CoDでは約91%の精度を達成
- 平均トークン数を約80%削減
- レイテンシ(応答時間)を48-76%短縮
と言った、顕著な改善が見られたという。
この効率化はビジネスにおいて大きな意味を持つ。AI研究者のAjith VallathPrabhakarは「月間100万件の推論クエリを処理する企業の場合、CoDによってコストを$3,800(CoT)から$760に削減でき、月間$3,000以上の節約になる」と分析している。
企業のAI導入を加速する実用性
CoDの特筆すべき点は、既存のAIモデルに対して簡単に実装できることだ。多くのAI技術の進歩が高額なモデルの再トレーニングや構造的変更を必要とする一方、CoDは単純なプロンプト修正で導入可能である。
「すでにCoTを使用している組織は、プロンプトを少し修正するだけでCoDに切り替えられます」とPrabhakar氏は解説する。
この技術は特に応答遅延に敏感なアプリケーションで価値を発揮する:
- リアルタイム顧客サポート
- モバイルAI
- 教育ツール
- 金融サービス
さらに、高度なAI推論を中小組織やリソースの限られた環境でも利用しやすくするという意義もある。
現在の限界と今後の展望
ただし、CoDにも限界は存在する。研究によれば、フューショット例(少数の例示)なしのゼロショット設定では効果が大幅に低下する。例えば、Claude 3.5 Sonnetでは標準プロンプトから精度が61.9%から65.5%への向上にとどまった。
また、3B以下のパラメータを持つ小型モデル(Qwen2.5 1.5B/3B、Llama 3.2 3B、Zoom SLM 2.3Bなど)ではCoTとの性能差がより顕著になる傾向がある。研究者たちはこれらの制限について、「CoD形式のデータが学習プロセスに不足している可能性がある」と分析している。
今後の展望として、研究者たちはCoDを他のレイテンシ削減手法(適応的並列推論やマルチパス検証など)と組み合わせることで、さらなる最適化の可能性を示唆している。
「AIモデルの進化が続く中で、推論効率の最適化は生の能力向上と同様に重要になるでしょう」とPrabhakar氏は結論づけている。
研究コードとデータはGitHubで公開されており、組織は自身のAIシステムでこのアプローチを実装・テストすることが可能だ。
論文
参考文献
コメント