生成AIは、出力の品質に重点が置かれて開発が進められていたが、最近はそれに加えて速度も改善が行われるようになって来ている。今回のGoogle I/Oの発表はそうした潮流を反映した物だった。
OpenAIが昨日発表した「GPT-4o」は、GPT-4から大幅に高められた速度で話題を呼んでいるが、Googleも本日開催された開発者会議「Google I/O」において、Geminiモデルに新たに速度に重点をおいた「Gemini 1.5 Flash」を発表し、今後のAI開発の新たな動きを示している。加えて、「Gemini 1.5 Pro」のアップデートや、オープンモデル「Gemma」のアップデートも発表している。
出力スピードに重点を置いた“Flash”なAIモデル
Gemini 1.5 Flashは、より狭い範囲や頻度の高いタスクを対象とし、回答の質や深い知識よりも提供スピードに重点を置いた、小型のGeminiモデルである。
Gemini 1.5 Flashは、1.5 Proと1.5 Nanoの中間に位置するが、Proよりも軽量でありながら、同等の性能を備えているという。これはProの最も重要な知識とスキルを小型モデルに移転する「蒸留」と呼ばれるプロセスによって実現されたとのことだ。
また、Gemini 1.5 Flashはテキストのみを処理するのではなく、テキスト、画像、動画などの異なるタイプの情報を処理し、推論することができるマルチモーダル・モデルである事も特徴と言えるだろう。
加えて、1500ページの文書や3万行以上のコードベースに相当する、100万トークンを取り扱うことが出来る長文コンテキストウィンドウ(一度に処理できるデータ量)を備えているという。
Gemini 1.5の品質が向上
現行の「Gemini 1.5 Pro」モデルにもアップデートが行われた。日本でもアップデートが行われ、Google Oneユーザーは「Gemini Advanced」としてGemini 1.5 Proが利用できるようになった。
Gemini 1.5 Proは、役割、フォーマット、スタイルに関わる製品レベルの動作を指定するものを含め、ますます複雑で微妙な指示に従うことができるようになったという。
だが、最大のアップデートは今年の後半に持ち越されたようだ。Gemini 1.5 Proではコンテキスト・ウィンドウが拡大し、100万トークンまで対応している。これは、先述したGemini 1.5 Flashと同じレベルだ。だが、今年後半には、このモデルのコンテキスト・ウィンドウが倍の200万トークンに拡大するという。これにより、2時間のビデオ、22時間のオーディオ、6万行以上のコード、140万語以上の単語を同時に処理できるようになる。
Gemmaがメジャーアップデート
Googleはオープン(オープンソースではない)モデルGemmaの次世代モデルである「Gemma 2」を発表した。
今年初めに発表された標準的なGemmaモデルは、これまで20億パラメータと70億パラメータのバージョンしかなかった。だが、開発者からはより大きなモデルの要望があったという。これに応える形で、新たに「Gemma 27B」モデルがリリースされた。サイズが 2 倍を超える一部のモデルよりも優れたパフォーマンスを発揮し、Vertex AI の GPU または単一の TPU ホスト上で効率的に実行されるという。
また、「PaliGemma」と呼ばれる、画像キャプション、画像ラベリング、ビジュアルQ&Aのユースケース向けの「Gemmaファミリー初のビジョン言語モデル」もリリースされた。これは、事前トレーニング済みのGemmaだ。
Googleによればこのモデルは6月にローンチするとのことだ。
Sources
コメント