MicrosoftはAI技術のパラダイムを「対話(Chat)」から「行動(Agency)」へと劇的にシフトさせる実験的なモデル、「Fara-7B」を発表した。

これは単なる「賢いチャットボット」ではない。ユーザーの代わりにマウスカーソルを動かし、Webサイトをクリックし、複雑なタスクを完遂する「Computer Use Agent(CUA)」だ。特筆すべきは、この高度な能力をわずか70億(7B)パラメータという軽量モデルで実現し、クラウドではなくユーザーのデバイス上(オンデバイス)で動作可能にした点にある。


AD

「知るAI」から「行うAI」へ:Computer Use Agent (CUA) の台頭

これまで私たちが慣れ親しんできた大規模言語モデル(LLM)は、テキストによる質問応答や生成を得意としてきた。しかし、Microsoftが今回提示したFara-7Bは、その役割を根本から変えるものである。

Fara-7Bの定義とポジショニング

Fara-7Bは、視覚情報(スクリーンショット)をもとにコンピュータを操作するAgentic SLM(エージェンティック小規模言語モデル)である。従来のモデルがテキストを介してユーザーとやり取りしていたのに対し、Fara-7Bは以下のような「行動」を自律的に行う。

  • 視覚認識: Webブラウザの画面を画像として認識する。
  • 推論と計画: 目標(例:「シカゴでメキシコ料理店を予約して」)を達成するための手順を計画する。
  • 物理的操作: マウスの移動、クリック、スクロール、キーボード入力といった具体的な操作コマンド(座標指定)を出力する。

なぜ「7B(70億パラメータ)」が重要なのか

現代のAI開発における最大の課題の一つは、モデルの巨大化に伴うコストとレイテンシ(遅延)、そしてプライバシーのリスクである。
Fara-7Bは、ベースモデルにQwen2.5-VL-7Bを採用し、軽量化を徹底した。これにより、NPU(Neural Processing Unit)を搭載した「Copilot+ PC」などのローカル環境での動作が可能となる。これは以下の二つの戦略的メリットをもたらす。

  1. プライバシーの保護 (Pixel Sovereignty): スクリーンショットや操作履歴といった機密情報がクラウドに送信されることなく、すべてユーザーのデバイス内で完結する。企業ユースや個人の金融取引において、これは決定的な要素となる。
  2. 低遅延とコスト削減: クラウドへの通信往復が不要なため、操作のレスポンスが向上する。また、トークン課金が発生しないため、常用するエージェントとしての経済合理性が高い。

Fara-7Bはいかにして画面を「見る」のか

Fara-7Bの最大の特徴は、その認識・操作のアプローチにある。これは、従来の自動化ツールや一部のAIエージェントとは一線を画す「人間模倣型」の設計思想に基づいている。

DOM依存からの脱却と「純粋な視覚ベース」

従来のWeb自動化(Selenium等)や一部のAIエージェントは、Webページの裏側にあるHTML構造(DOMツリーやアクセシビリティツリー)を解析して操作を行っていた。しかし、現代のWebサイトは動的であり、構造が複雑で、しばしば解析不能なコードが含まれている。

Fara-7Bは、アクセシビリティツリーに依存せず、人間と同じように「画面のピクセル(スクリーンショット)」だけを見て判断する
論文によると、Fara-7Bは画面上の要素(ボタンやリンク)の座標を直接予測し、click(x, y)のようなアクションを実行する。この「Pixel-in, Action-out(ピクセル入力、アクション出力)」のアプローチにより、HTML構造が難解なサイトや、Canvas等で描画されたインターフェースであっても、人間と同様に操作が可能となる。

競合モデルを凌駕するベンチマーク結果

このアプローチの有効性は、数値として明確に示されている。Webエージェントの性能を測る標準的なベンチマーク「WebVoyager」において、Fara-7Bは以下の成果を記録した。

  • Fara-7B: 成功率 73.5%
  • OpenAI computer-use-preview: 成功率 70.9%
  • GPT-4o (SoM Agent): 成功率 65.1%
  • UI-TARS-1.5-7B: 成功率 66.4%

驚くべきは、はるかに巨大なモデルであるGPT-4oや、OpenAIの最新プレビューモデルを、わずか7Bのモデルが上回っている点である。また、コスト効率の面でも、GPT-4oベースのエージェントと比較して圧倒的に安価にタスクを完了できることが示されている。


AD

FaraGen:AIを進化させる「合成データ」の錬金術

なぜ、7Bという小規模なモデルが、これほどの高性能を発揮できるのか? その秘密は、モデルのアーキテクチャそのものよりも、学習データの生成プロセスにある。Microsoftは今回、「FaraGen」と呼ばれる合成データ生成パイプラインを開発した。

データの「量と質」のパラドックス

テキストデータとは異なり、コンピュータ操作の高品質なログ(どの画面で、何を考え、どこをクリックしたか)は、インターネット上に大量には存在しない。人間によるアノテーション(ラベル付け)はコストが高すぎるため、大規模なデータセット構築は困難であった。

マルチエージェントによる自動生成

FaraGenは、GPT-4などの高度なモデルを用いた複数のAIエージェント(Magentic-Oneフレームワーク)を連携させ、高品質な訓練データを「自作」するシステムである。

  1. Task Proposal(タスク提案): 実際のWebサイト(ClueWeb22など)を分析し、「〇〇のチケットを予約する」「××の価格を比較する」といったリアルなタスクを自動生成する。
  2. Task Solving(タスク解決): 「Orchestrator(監督役)」と「WebSurfer(実行役)」の2つのAIエージェントが協力してタスクを実行し、成功までの操作ログ(軌跡)を記録する。
  3. Trajectory Verification(軌跡の検証): 別のAI(検証役)が、その操作が本当に成功したか、無駄な動きがないかを厳しくチェックする。

このプロセスにより、Microsoftは約14万5000件、総ステップ数100万回以上に及ぶ高品質な操作データセットを構築した。Fara-7Bは、いわば「巨人の肩の上」で、高度なAIたちの思考プロセスと操作技術を蒸留(Distillation)して学習したモデルなのである。

安全性と信頼性:暴走を防ぐ「Critical Points」

AIにクレジットカードを持たせたり、メールを送信させたりすることには、本質的なリスクが伴う。ハルシネーション(嘘の出力)によって、勝手に高額な買い物をされてはたまらない。Microsoftはこの点に対し、「Critical Points(クリティカル・ポイント)」という概念を導入し、安全策を講じている。

ユーザーの承認を強制する仕組み

Fara-7Bは、タスク実行中に「不可逆的なアクション」や「機密情報の入力」が必要な場面に到達すると、それを「Critical Point」として認識し、自動的に動作を停止するように訓練されている。

  • 購入確定ボタンを押す直前
  • メールの送信ボタンを押す直前
  • 個人情報を入力する画面

これらの局面では、AIは必ずユーザーに制御を戻し、承認を求める。実験では、有害なタスクやリスクのある操作に対して、Fara-7Bは高い拒否率(WebTailBench-Refusalsで81.9%)を記録しており、これはOpenAIのモデル(69.3%)を上回る安全性である。

AD

新たな評価基準「WebTailBench」の提唱

MicrosoftはFara-7Bと同時に、新たなベンチマーク「WebTailBench」も公開した。既存のベンチマーク(WebVoyagerなど)は、静的なページや単純なタスクに偏っており、現実世界の複雑さを反映しきれていないという課題があった。

WebTailBenchは、以下の特徴を持つ609のタスクで構成されている。

  • 現実的な複雑さ: 複数のサイトを横断するタスク(例:「AmazonとWalmartで価格を比較して安い方を買う」)。
  • 多様なドメイン: 従来のベンチマークで手薄だった「求人応募」「不動産検索」「複数商品の買い物リスト」などをカバー。
  • 動的な検証: 人間のアノテーターによる検証を含み、実際に「タスクが達成されたか」を厳密に評価。

このベンチマークにおいても、Fara-7Bは同クラスのモデルと比較して圧倒的なスコア(38.4% vs UI-TARSの19.5%)を記録しており、実環境での適応能力の高さが証明されている。

AIエージェントの民主化に向けて

Fara-7Bの登場は、AI技術の歴史において「チャットボットの時代」から「自律エージェントの時代」への転換点を示唆している。特筆すべきは、これが巨大テック企業のサーバーールームに鎮座するスーパーコンピュータの中だけでなく、私たちの手元のPCで動作することを前提としている点だ。

Fara-7Bがもたらす未来

  1. ローカルAIの復権: クラウド依存からの脱却は、プライバシー重視の企業や、ネット接続が不安定な環境でのAI利用を加速させる。
  2. RPAの終焉と新生: 従来のルールベースのRPA(ロボティック・プロセス・オートメーション)は、ウェブサイトのデザイン変更で即座に動かなくなる脆さがあった。視覚ベースで柔軟に対応できるFara-7BのようなAIエージェントは、真の意味での「事務作業の自動化」を実現する可能性がある。
  3. データ生成エコシステムの重要性: Fara-7Bの成功は、モデルのサイズよりも「いかに高品質なデータを合成・選別できるか」が勝負の鍵であることを示した。FaraGenのようなデータ工場の構築能力が、今後のAI開発競争の決定打となるだろう。

MicrosoftはFara-7Bをオープンウェイト(MITライセンス)としてHugging Face等で公開している。これは、開発者コミュニティを巻き込み、PC操作エージェントの実用化を一気に加速させる戦略的な一手と言えるだろう。私たちは今、AIが「画面の向こう側の相談相手」から「隣でキーボードを叩く同僚」へと進化する瞬間を目の当たりにしているのかもしれない。


Sources