AIモデルにおける「コンテキストウィンドウの長さ」は何をもたらすのか？

2024年5月16日

当記事のリンクにはアフィリエイト広告が含まれています。

Googleは、開発者会議Google I/Oで、新たに「Gemini 1.5 Flash」のリリースを発表すると共に、「Gemini 1.5 Pro」のアップデートを発表した。どちらもその特徴として、100万トークン（Gemini 1.5 Proは2024年後半には200万トークンまで対応予定）の「コンテキストウィンドウの長さ」をアピールしている。

このコンテキストウィンドウの長さは一体どのようにLLMの性能に関わってくるのだろうか？当のGoogle DeepMindが解説してくれているのでご紹介しよう。

コンテキストウィンドウは人間の短期記憶に似ている

コンテキストウィンドウとは、モデルが一度に処理できるトークンの数を表す。トークンとは、モデルが扱う最小の構成要素であり、単語の一部、画像やビデオなどを含む物だ。

これは、人間で言う短期記憶のようなものだ。例えば、あなたは誰かと会話をする中で、直前の記憶を覚えておけなければ、まともな会話をこなすことも出来ないだろう。コンテキストウィンドウが長いという事は、一度に取り扱うことの出来る記憶の容量が大きくなることを示す。これは一般的に、以下のようなメリットがあるとされている。

文脈理解の向上：長いコンテキストウィンドウを用いることで、モデルは予測を行う際に、より多くのテキストを考慮できるようになる。これにより、文や段落間の微妙な関係やニュアンスをより正確に理解し、より一貫性のある応答を生成することができる。
一貫性と連続性の強化：長いコンテキストウィンドウにより、より広範なテキストをレビューできるようになる。このことは、全体を通してより一貫性と連続性のあるコンテンツを生成できる事につながり、より自然な読書または会話体験を提供することを可能にする。
複雑なタスク処理の改善：長い文書や複雑なナラティブの理解、長文からの要約や質問応答、文書分析など、長い文脈を一度に処理する必要があるタスクは、長いコンテキストウィンドウが出力制度の向上に大きなメリットをもたらす。
複雑な推論のサポート：長いコンテキストウィンドウは、モデルが複雑な推論を行い、遠く離れたテキスト間のパターンを検出し、接続を行うためのより広いキャンバスを提供する。これは、情報の深い理解と統合を要求するタスクにとって重要となる。

Gemini 1.0は一度に最大32,000トークンを処理できたが、Gemini 1.5 Flash/Proは、最大1,000,000トークンのコンテキストウィンドウを備えている。これは、これまでに登場しているLLMの中でも圧倒的に長いコンテキストウィンドウとなる。Google DeepMindは、研究の中で最大1,000万トークンまでのテストに成功したとしている。そして、コンテキストウィンドウが長ければ長いほど、モデルはより多くのテキスト、画像、オーディオ、コード、またはビデオを取り込んで処理できるのだ。

「私たちの元々の計画は、コンテキスト内で128,000トークンを達成することでしたが、野心的な目標を設定するのが良いと思い、1,000,000トークンを提案しました。そして今、私たちは研究でそれを10倍も上回りました」と、長いコンテキストプロジェクトの研究リードの一人であるGoogle DeepMindの研究科学者Nikolay Savinov氏は述べている。

これにより、Gemini 1.5 Flash/Proが扱える生データは、モデルと関わりにおいて、従来とは全く異なる新たな側面を見せてくれる。たとえば、数十ページにわたる文書を要約する代わりに、数千ページにわたる文書を要約できるようになる。古いモデルが数千行のコードを分析するのを助けることができたところが、Gemini 1.5 Flash/Proは一度に数万行のコードを分析できるのだ。

とはいえ、コンテキストウィンドウが長くなると、以下のようなデメリットも生じる事が分かっている。

計算リソースの増加：長いコンテキストの処理には、より多くのメモリと計算能力が必要となる。これにより、トレーニングと推論が遅くなり、コストが高くなる可能性があり、一部のユーザーやアプリケーションではアクセスが制限されることがある。
情報過多のリスク：十分なコンテキストを持つことと、多すぎるコンテキストを持つことの間には、バランスが必要となる。関連性のない情報がモデルの焦点を薄めたり、混乱を引き起こしたりする可能性がある。最適なコンテキストウィンドウのサイズを見つけることは、特定のアプリケーションによって異なり、複雑な課題だ。
バイアスの増幅の可能性：より多くのテキストを扱うことで、トレーニングデータに存在するバイアスを取り込んで増幅するリスクが高まる。長いコンテキストウィンドウは、広範なデータセットに見られるステレオタイプやバイアスを強化する可能性があるモデルをより敏感にする。
トレーニングとチューニングの課題：長いコンテキストウィンドウを持つモデルのトレーニングは本質的にトレーニングの難易度を高める。メモリを効率的に管理し、長いシーケンスを通じてグラディエントシグナルが減衰せずに伝播できるようにするための洗練された技術が必要となる。

計算要求の増加、潜在的な情報過多、バイアスの増幅のリスク、およびトレーニングの複雑さという課題はありつつも、やはりそのメリットは大きな物だ。これらの要因のバランスを取ることは、効果的で効率的なAIシステムを開発するために重要ではある。

「私が最初にコンテキストに100万トークンがあるのを見たとき、私の最初の質問は、『これを何に使うの？』でした。しかし今、私は人々の想像力が広がっていると思いますし、彼らはこれらの新しい能力を使用して、より多くの創造的な方法を見つけるでしょう」と、Google DeepMindの研究者Machel Reid氏は述べている。

Source