Amazon Web Services(AWS)は、包括的なマルチモーダルAI基盤モデル群「Nova」を発表した。テキスト生成に特化した4つのモデルと、画像生成モデル「Nova Canvas」、動画生成モデル「Nova Reel」で構成される新製品群は、生成AIの主要分野を網羅する野心的な取り組みとなっている。
階層化された4つのNova言語モデル
AWSが提供する新たなNova言語モデル群は、企業の多様なニーズに対応するため、処理能力と用途に応じて4つの層に分類されている。最小規模のモデル「Micro」は、テキストのみを扱う設計となっており、要約、翻訳、質疑応答、会話、アイデア創出などの基本的なタスクに特化している。高速なレスポンスと低コストを実現し、128,000トークン(約10万語)までの文章を処理できる。
Microは性能においても競合を圧倒しており、ほぼ全てのベンチマークテストでGoogleのGemini 1.5 Flash 8BやLlaMa 3.1 8Bを上回る成績を残している。
次の層に位置する「Lite」は、テキストに加えて画像や動画の入力にも対応するマルチモーダルモデルだ。300,000トークン(一般的な小説3冊分に相当)の文章処理が可能で、複数の画像を同時に分析したり、最大30分の動画を1回のリクエストで処理したりできる。顧客対応や文書分析など、視覚情報を含むリアルタイムの業務処理に適している。
「Pro」は現時点でAWSが提供する最も高度なマルチモーダルモデルとなる。AIエージェントとしての機能が強化されており、人間の監督なしで電子メールの作成・送信やデータ収集、レポート作成・配布などの複雑なタスクを実行できる。また、「Pro」は教師モデルとしても機能し、「Micro」や「Lite」のカスタムバリアントを作成する際の知識源として活用できる。これにより、より小規模で効率的な「生徒」モデルを作成し、同等の性能を維持しながら計算能力とメモリ使用量を削減することが可能となる。
Nova Lite及びNova ProもAmazonによるベンチマークテストの結果、ビジュアル テストとエージェント ベース テストで競合システムと同様のパフォーマンスを発揮することが示されている。
2025年初頭にリリースが予定されている最上位モデル「Premier」は、複雑な推論タスクと、カスタムモデルの抽出に特化した設計となっており、OpenAIのo1と競合する物になるようだ。AWSによれば、全てのNovaモデルは企業や産業のニーズに合わせて調整可能で、特定の業界の専門用語や関係性の理解、ブランドボイスの適用、企業データに基づく最適化などが可能とされる。例えば、医療機関がNova Proを微調整することで、医療用語や書式、業界特有の関係性を理解するモデルを作成できる。
これら4つのモデルは200以上の言語を扱うことができるが、特に15の言語で最適化されており、特に英語、ドイツ語、スペイン語、フランス語、イタリア語、日本語、韓国語、アラビア語、簡体字中国語、ロシア語での性能が高いとされる。2025年には、現在の300,000トークンから200万トークン以上へとコンテキストウィンドウが拡張される予定で、より長文の処理や複雑なタスクへの対応が可能になる見込みだ。
クリエイティブAIへの本格参入
上記の大規模言語モデル群に加え、AWSはNova CanvasとNova ReelによってクリエイティブAI市場への本格的な参入を表明したと言えるだろう。これまでAWSは主に開発者向けツールとプラットフォームの提供、そしてAnthropicへの出資を通じてAI市場に関与してきたが、今回のリリースによって状況は大きく変化することになる。
「Nova Canvas」は、プロフェッショナルレベルの画像生成・編集機能を提供する。テキストプロンプトによる画像生成に加え、既存画像の高度な編集機能を備えている。ユーザーは画像内の特定のオブジェクトや領域を自然言語で指定し、変更を加えることができる。例えば、画像内のシャツを指定し、その上に表示したい内容を英語で説明するだけで、シャツのデザインを変更することが可能だ。さらに、背景の維持や変更、カラースキームの調整なども、プロンプトを通じて細かく制御できる。
動画生成モデル「Nova Reel」は、市場の既存のハイエンドテキスト生成動画AIモデルに匹敵する性能を持つ。このモデルの特筆すべき点は、カメラワークの精密な制御機能にある。ユーザーは自然言語でズーム、パン(左右の移動)、回転などのカメラモーションを指定でき、映画のような印象的なショットを容易に作成できる。現在は1回の生成につき約3分の処理時間で6秒間の動画を作成可能で、近い将来には2分間の動画生成にも対応する予定だ。
性能面も注目に値する。Runwayが提供するGen-3 Alphaとの直接比較において、動画品質で61.4%、動画の一貫性において71.6%という高い勝率を記録している。これらの数値は、人間の評価者による主観評価に基づいており、AWSの動画生成技術が既に業界トップレベルに到達していることを示している。Amazonは実際にこのNova Reelの実用例として、偽のパスタブランドによる模擬広告動画を公開しているが、その自然な出来映えには驚かされるだろう。
広告分野での初期導入事例では、Nova Canvasを活用することで、広告対象商品数が5倍に増加し、商品あたりの画像数が2倍になったという報告もある。これは、クリエイティブ制作の効率化とスケーラビリティの向上を示す具体的な成果といえる。さらに、キーワードレベルでのクリエイティブ最適化や動画広告など、新たな広告戦略の展開も可能になっているという。
なお、今のところ、画像と動画モデルは英語入力にのみ対応している。
安全性と今後の展開
AWSは、Novaファミリーの展開において、AIの安全性と透明性を最重要課題の一つとして位置付けている。全てのNovaモデルには、包括的な保護機能が統合されており、生成コンテンツへの自動ウォーターマーク付与、リアルタイムのコンテンツモデレーション、有害コンテンツの生成制限などが実装されている。特に注目すべきは、誤情報の拡散防止、児童性的虐待材の検出と防止、そして化学・生物・放射線・核関連リスクに対する保護機能だ。
透明性の確保に向けた取り組みとして、AWS AI Service Cardsの導入も進められている。これは各AIサービスの使用事例、制限事項、責任あるAI実践に関する明確な文書化を提供するものだ。ただし、モデルのトレーニングに使用されたデータの詳細については依然として不透明な部分が残されている。AWSは、独自データとライセンス取得済みデータの組み合わせを使用していると説明するにとどまっており、具体的な内容は競争上の優位性維持を理由に非公開としている。
知的財産権に関する課題への対応として、AWSは包括的な補償方針を導入している。これは、Novaモデルが著作権で保護された内容を複製してしまった場合に、顧客を法的リスクから保護する仕組みだ。この補償制度は、生成AIの商用利用における重要な懸念事項の一つである著作権問題に対する、AWS独自のアプローチを示している。
AWSは今後の展開について、2025年に向けて二つの重要なモデルの追加を予定しているという。第一四半期には、音声処理に特化したspeech-to-speechモデルがリリースされる。このモデルは、トーンやケイデンスといった非言語的な要素も解釈可能で、自然な「人間らしい」音声を生成できるという。さらに、2025年半ばには「any-to-any」モデルの導入が計画されている。このモデルは、テキスト、音声、画像、動画を相互に変換可能とする画期的な機能を提供する予定だ。
Amazon CEOのAndy Jassy氏は、この「any-to-any」モデルについて「基盤モデルの構築と利用における将来の姿」と位置付けている。このモデルは、翻訳者からコンテンツエディター、AIアシスタントまで、幅広いアプリケーションを支援することが期待されている。ただし、AWSはこれらの新機能の開発には技術的な課題が存在する可能性を認めており、リリース時期については柔軟な姿勢を示している。
セキュリティと責任あるAI開発の観点から、AWSは各モデルの能力向上と並行して、保護機能の強化も継続的に実施していく方針だ。特に、企業での実用化が進むにつれて重要性を増す、データプライバシーやコンプライアンスへの対応を重視している。こうした包括的なアプローチは、AIの実用化における信頼性の確保と、持続可能な発展の両立を目指すものといえる。
Xenospectrum’s Take
Nova の発表は、AWS が OpenAI や Google との AI 覇権競争に本格参入したことを示している。とりわけ興味深いのは、単なるモデルの提供ではなく、企業ニーズに特化した実用的な機能を重視している点だ。
しかし、トレーニングデータの詳細が明らかにされていない点は懸念材料となる。著作権問題への対応として補償制度を設けているものの、これは根本的な解決とは言えないだろう。また、「Premier」モデルの発表が2025年初頭まで延期されている点も、開発上の課題を示唆している可能性がある。
とはいえ、AWS の強みである企業向けクラウドインフラとの統合性は、Nova の採用を促進する重要な差別化要因となるはずだ。特に2025年に登場するという「any-to-any」モデルの展開は多くの可能性を秘めた物と言える。生成AI分野ではここ数ヶ月あまり音沙汰のなかったAmazonだが、今後は、注目していく必要がありそうだ。
Sources
コメント