Amazonは、ユーザーに代わってWebブラウザ内でタスクを実行する新しいAIモデル「Nova Act」を発表した。開発者は、新たに公開されたSDKのプレビュー版を通じて、このAIエージェントの初期バージョンを試用できる。これは、AIが単に情報を提供するだけでなく、具体的なアクションを実行する「AIエージェント」開発競争へのAmazonの本格参入を示す動きとなる。
新たなAIエージェント「Nova Act」とそのアクセス方法
Amazonが発表した「Nova Act」は、Webブラウザ内でのユーザーのアクションを学習し、自律的にタスクを実行するために設計されたAIモデルである。具体的には、社内システムでの不在申請の提出、カレンダーへの不在期間の登録、不在通知メールの設定といった一連の操作を自動化するエージェントなどを開発できる。
このNova Actは、Amazonが新たに設立したサンフランシスコ拠点のAGI(汎用人工知能)ラボ「Amazon AGI Labs」によって開発された最初の公開製品の一つである。このラボは、元OpenAIの研究者であるDavid Luan氏とPieter Abbeel氏が共同で率いている。
開発者は、新設されたWebサイト「nova.amazon.com」を通じて、「Nova Act SDK」のリサーチプレビュー版にアクセスできる。このサイトは、Nova Act SDKだけでなく、Amazonの基盤モデル群である「Amazon Nova」(Nova Micro, Lite, Pro, Canvas, Reel)を探索するためのポータルとしても機能する。現時点では、米国在住でAmazonアカウントを持つユーザーがnova.amazon.comを利用可能だ。
Amazon 人工知能担当SVPのRohit Prasad氏は、「nova.amazon.comは、Amazonの最先端の知能をすべての開発者と技術愛好家の手に届け、Amazon Novaの能力を探求することをこれまで以上に容易にします。私たちは、開発者がNovaモデルでアイデアを迅速にテストし、Amazon Bedrockでスケール展開できるよう、この体験を創り出しました」と述べている。
Nova Actの機能と信頼性への注力
従来のLLM(大規模言語モデル)における「エージェント」は、主に自然言語での応答やRAG(Retrieval-Augmented Generation:検索拡張生成)による知識ベースの参照を行うシステムを指していた。しかしAmazonは、エージェントを「ユーザーに代わってデジタルおよび物理的な環境でタスクを完了し、行動できるシステム」と定義している。
現在のAIエージェント技術はまだ初期段階にあり、多くはAPIが完全に整備されたユースケースに限定される。しかし、Amazonが目指すのは、「結婚式の準備」や「複雑なITタスクの処理によるビジネス生産性の向上」といった、広範で複雑なマルチステップタスクを実行できるエージェントだ。
Nova Act SDKは、このような複雑なワークフローを、信頼性の高い「アトミックコマンド」(基本的な構成要素となる命令。例:「検索」「チェックアウト」「画面に関する質問への回答」)に分解することを可能にする。これにより、開発者は安定した動作ブロックを組み合わせて、より複雑な自動化処理を構築できる。
さらに、必要に応じてコマンドに詳細な指示(例:「保険のアップセルは受け付けない」)を追加したり、APIを呼び出したり、Playwright(ブラウザ操作ライブラリ)を直接操作して信頼性をさらに高める(例:パスワード入力)ことも可能である。Pythonコード(テスト、ブレークポイント、アサーション、並列化のためのスレッドプールなど)を組み込むこともでき、ウェブページの読み込み時間に制約されるエージェントの速度限界に対応する柔軟性も持つ。
AmazonはNova Actにおいて、特に「信頼性」を重視している。他のモデルが苦手とする日付ピッカー、ドロップダウン、ポップアップといったUI要素の操作に関する内部評価では90%以上のスコアを目指しており、画面上の要素を理解し操作する能力を直接測定するベンチマーク(ScreenSpot, GroundUI Web)において、AnthropicのClaude 3.7 SonnetやOpenAIのCUAなど競合製品を上回るパフォーマンスを示し、クラス最高水準の性能を達成したと主張している。
ベンチマーク結果(Amazon内部評価による)
ベンチマーク | 説明 | Amazon Nova Act | Claude 3.7 Sonnet* | OpenAI CUA* |
---|---|---|---|---|
ScreenSpot Web Text | 画面上のテキスト要素に対する自然言語指示の実行(例:フォントサイズを50に設定) | 0.939 | 0.900 | 0.883 |
ScreenSpot Web Icon | 画面上の視覚要素に対する自然言語指示の実行(例:このGitHubリポジトリの星の数は?) | 0.879 | 0.854 | 0.806 |
GroundUI Web | Web上の様々なUI要素の理解と操作 | 0.805 | 0.825 | 0.823 |
* Amazonチームによるベンチマーク。プロンプトは基本的に単純(例:各要素に対して「\<要素>をクリック」)。Amazon内部での評価目的で、(i) Claude 3.7 SonnetはBedrock API、(ii) OpenAI CUAはOpenAI APIを使用して測定された。
この信頼性重視のアプローチにより、一度ワークフローが正しく設定されれば、ユーザーは各アクションを監視する必要がない。ヘッドレスモード(画面表示なしでの実行)への切り替え、エージェントのAPI化による製品への統合、あるいは任意のスケジュールでの非同期実行が可能になるとのことだ。Amazonは例として、毎週火曜日の夕食にサラダを配達注文するエージェントを内部で構築したことを示している。
また、Nova Actは、学習データに含まれていない新しい環境(例:Webゲーム)に対しても、UI理解能力を転移させる可能性を示しており、初期のチェックポイントがビデオゲーム経験ゼロにもかかわらず成功したとのことだ。
すでにNova Actは、今後リリース予定のAlexa+(生成AI強化版のAlexaアシスタント)の一部機能として統合されていることも明らかされた。
競争環境とAmazonの戦略
Nova Actのリリースにより、AmazonはAIエージェント開発分野でOpenAI(Operator, Deep Research)、Anthropic(Computer Use)、Google(Deep Research)といった先行企業と直接競合することになる。これらの企業は、テキストや画像生成を超え、ユーザーのためにマルチステップのタスクを自律的に実行できるAIエージェントの開発に注力している。
AIエージェント技術は、AIの次の成長フロンティアと見なされており、ホワイトカラー業務の自動化に大きな影響を与える可能性がある。AIエージェントがコンピュータを操作し、人間を超える速度でタスクを実行する未来が想定されている。
Nova Actの発表は、Amazonの広範な生成AI戦略の一環である。同社はこれまでにも、独自の基盤モデル「Nova」シリーズ、AIトレーニング用チップ「Trainium」、ショッピングアシスタント「Rufus」、ヘルスケア向けAI、サードパーティモデルを含むマーケットプレイス「Amazon Bedrock」など、多数のAI関連製品やサービスを発表してきた。また、10年以上前に発表したデジタルアシスタント「Alexa」も、生成AIによる大幅な機能強化(Alexa+)を進めている。
さらにAmazonは、AWS内にSwami Sivasubramanian氏が率いるエージェントAI開発専門グループを設立し、CEO直属のAGI(汎用人工知能)開発チームも擁するなど、AI分野への投資を加速させている。
将来の展望と課題
Amazon AGI Labsは、エージェントが「結婚式の準備」や「複雑なITタスク」のような広範で複雑なマルチステップタスクを実行できるようになることを長期的な目標として掲げている。AGIを「人間がコンピュータで行うあらゆる作業を支援できるAIシステム」と定義し、Nova Actのようなエージェント技術をその実現に向けた重要なステップと位置づけている。
Amazonは、真にスマートで信頼性の高いエージェントを実現するには、単純なデモンストレーションを用いた教師あり学習だけでなく、多様な環境での強化学習(Reinforcement Learning)によるトレーニングが必要だと考えている。Nova Actはこの方向性における初期の成果であり、今後さらなる研究成果を発表していく予定だ。
しかし、現在のAIエージェント技術には課題も多い。OpenAIやGoogle、Anthropicなどの初期のエージェントは、信頼性、速度、自律性、人間なら犯さないようなミスの発生といった問題点が指摘されている。Nova Actがこれらの課題を克服し、実用的な信頼性を達成できるかどうかは、今後の展開によって明らかになるだろう。
Nova Actの初期テストは、開発が遅れているとされる「Alexa+」の能力の一端を垣間見せる可能性があり、AmazonのAI戦略にとって重要な試金石となる。Amazonは、エージェントの最も価値あるユースケースはまだ発見されていないと考えており、Nova Act SDKのプレビューを通じて開発者コミュニティと共にそれらを発見していくことを期待している。
Sources