Microsoft、Copilot StudioにAIがPCを操作する「Computer use」機能を実装

MicrosoftがCopilot Studioに新機能「Computer use」を搭載する事を発表した。これは、AIエージェントが人間のユーザーのように、Webサイトやデスクトップアプリケーションのグラフィカルユーザーインターフェース（GUI）を直接操作できるようにする画期的な機能である。API連携が不要なため、レガシーシステムを含む幅広い環境での自動化が期待され、ビジネスプロセスの効率化を大きく前進させる可能性を秘めている。

Copilot Studioの新時代: AIがGUIを直接操作する「Computer use」

Microsoft Copilot Studioは、企業が独自のAIアシスタントや仮想エージェントを構築できるローコード/ノーコードプラットフォームとして知られている。今回、早期アクセスリサーチプレビューとして発表された「Computer use」は、このプラットフォームに新たな次元をもたらす。

具体的には、Copilot Studioで作成されたAIエージェントが、まるで人間のように画面上のボタンをクリックし、メニューを選択し、テキストフィールドに入力できるようになる。これにより、従来はAPI（アプリケーション・プログラミング・インターフェース）が存在せず、システム連携による自動化が困難だったタスクも、AIエージェントに任せられるようになる。Microsoftは公式ブログで「人が使えるアプリなら、エージェントも使える」と述べ、その汎用性の高さを強調している。

この機能は、Windows上のデスクトップアプリケーションはもちろん、Edge、Chrome、Firefoxといった主要なWebブラウザ上での操作にも対応する。企業内に存在する多様なソフトウェア環境に対応できる点は、実用面で大きなメリットとなるだろう。

API不要の衝撃: レガシーシステムも自動化の対象に

「Computer use」機能の最大のインパクトは、APIを必要としない点にある。多くの企業では、長年使用されている基幹システムや、外部連携を想定していない特殊な業務アプリケーションなど、APIが提供されていないシステムがいまだ数多く稼働している。これらのシステムに関する業務は、手作業に頼らざるを得ないケースが多かった。

Microsoftのビジネス＆インダストリーCopilot担当コーポレートバイスプレジデントであるCharles Lamanna氏は、「これにより、システムに直接接続するためのAPIが利用できない場合でも、エージェントはタスクを処理できるようになります」と説明している（The Verge, Wccftechより引用）。これは、自動化の適用範囲を劇的に広げる可能性を示唆している。これまで自動化の恩恵を受けられなかった領域にも、AIによる効率化の波が及ぶことになるかもしれない。

LLMと推論が支える「賢さ」と「適応力」

この「Computer use」機能は、単に事前に記録された操作を再生する「マクロ機能」のようなものではない。その核となるのは、大規模言語モデル（LLM）と、それに組み込まれた高度な推論能力である。

Microsoftによると、この機能はアプリケーションやWebサイトのユーザーインターフェース（UI）に変更があった場合でも、リアルタイムでそれを検知し、自律的に適応して動作を継続できるという。例えば、ボタンの位置が変わったり、表示ラベルが変更されたりしても、AIエージェントは状況を理解し、目的の操作を継続しようと試みる。これは、従来の画面操作自動化ツールが抱えていた「UI変更への脆弱性」という課題に対する一つの答えと言えるだろう。

さらに、組み込まれた推論機能により、予期せぬ問題が発生した場合でも、エージェント自身が解決策を見つけ出そうとする。これにより、より堅牢で信頼性の高い自動化が期待できる。

この技術的背景には、OpenAIが発表した「Operator」と同様の基盤技術（GPT-4oの視覚能力と強化学習を組み合わせたComputer-Using Agentモデル）が利用されている可能性があるが、公式には明言されていない。

ビジネス現場を変える応用例

Microsoftは、「Computer use」によって価値が生まれる具体的なユースケースとして、以下の3点を挙げている。

データ入力の自動化: 様々なソースからの大量データを、手作業によるミスなく基幹システムに入力する。
市場調査: 複数のオンラインソースから市場データを自動収集し、分析可能な形式でまとめる。
請求書処理: 請求書からデータを抽出し、会計システムに入力するプロセスを自動化する。

これらの例からも分かるように、「Computer use」は定型的でありながらも、システム間の連携が難しかったために人手に頼っていた業務の自動化に特に有効である。Wccftechが示唆するように、Webサイトへのログイン、レポート作成支援、さらには顧客サービス業務の一部代行など、応用範囲はさらに広がる可能性がある。

RPAの進化形？「Computer use」がもたらす自動化の未来

「Computer use」の登場は、既存の自動化技術であるRPA（Robotic Process Automation）のあり方にも影響を与えそうだ。RPAは主にUI操作を自動化する技術だが、UIの変更に弱い、複雑な判断が苦手といった課題があった。

Microsoftは、「Computer use」がこれらのRPAの課題を克服すると主張している。主な利点として以下の4点が挙げられている。

リアルタイムでの変更対応: UIが変わっても、推論によって動作を継続できる。
簡単な利用: 自然言語で指示を与えることができ、専門的なコーディング知識は不要。実行計画や推論プロセスを視覚的に確認しながら調整できる。
インテリジェントな判断: 画面上の情報を認識し、複雑な状況や変化する環境でも賢明な判断を行う。
完全な可視性: エージェントの活動履歴（スクリーンショットや推論ステップを含む）を後から確認できる。

これらの特徴により、従来は専門の開発者が必要だったRPAの領域が、より多くのビジネスユーザーにとって身近なものになるかもしれない。まさに、RPAのコンセプトをAIによって再定義し、進化させたものと捉えることができるだろう。ただし、既存のRPAツールとの具体的な機能比較や、実際の導入におけるコスト、学習曲線など、今後明らかになる情報に注目していく必要がある。

セキュリティとインフラ: エンタープライズ利用への配慮

企業がAIツールを導入する上で、セキュリティとインフラ管理は重要な懸念事項である。Microsoftはこの点にも配慮している。

「Computer use」は、Microsoftがホストするインフラストラクチャ上で実行されるため、企業は自社でサーバーを管理・運用する必要がない。これにより、導入の迅速化、メンテナンス負荷の軽減、インフラコストの削減が期待できる。

また、セキュリティ面では、処理される顧客データはMicrosoft Cloudの境界内に留まり、基盤となるLLMのトレーニングには使用されないことが明言されている。これは、データの機密性を重視する企業にとって安心材料となるだろう。

コンシューマー向けCopilot「Actions」との違い

Microsoftは、コンシューマー向けのCopilotにも「Actions」と呼ばれる類似の機能を追加している。これは、Copilotがユーザーに代わってレストランの予約やオンラインショッピングなどを行う機能だ。

しかし、「Actions」は現時点では特定のパートナー企業との連携に限定されている。一方、Copilot Studioの「Computer use」は、より広範なWebサイトやデスクトップアプリケーションに対応し、特にビジネスプロセス自動化に焦点を当てた、より高度なツールであると考えられる。ターゲットとするユーザー層や目的が異なると言えるだろう。

Computer useの利用方法

「Computer use」は現在、早期アクセスリサーチプレビューとして提供されており、まだ開発途上の機能だ。Microsoftは、関心のある企業向けに参加フォームを用意し、フィードバックを求めている。

この新機能に関するさらなる詳細は、2025年5月に開催予定のMicrosoft Buildカンファレンスで発表される見込みだ。AIによる自動化の最前線として、この機能が今後どのように進化し、ビジネスの現場に浸透していくのか、注目が集まる。AIがソフトウェアを「使う」時代が、本格的に始まろうとしているのかもしれない。

Source

Microsoft: Announcing new computer use in Microsoft Copilot Studio for UI automation