Microsoftは2025年6月12日(現地時間)、ユーザーのPC画面を「見て」リアルタイムで支援する新機能「Copilot Vision」を、米国でWindows 10およびWindows 11ユーザー向けに正式公開した。これは、PCと人間のインタラクションを根底から変える可能性を秘めた、野心的な一歩と言えるだろう。私たちが長年慣れ親しんだ「PCの使い方を検索する」という行為から、「AIに見せて教えてもらう」という新たなパラダイムへの移行を告げる出来事だからだ。
「第二の目」が隣にいる未来:Copilot Visionの核心
Copilot Visionのコンセプトは、驚くほどシンプルでありながら革新的だ。ユーザーが許可すると、Copilot Visionはまるであなたの隣に座る親切なインストラクターのように、PC画面に表示されている内容を「見て」、文脈を理解し、リアルタイムで対話しながら支援を提供する。
Microsoftはこれを「あなたの第二の目(your second set of eyes)」と表現している。例えば、あなたがAdobe Photoshopで写真の特定部分を明るくしたいが、方法がわからないとする。従来であれば、検索エンジンで「Photoshop 部分的に明るくする方法」などと検索し、無数の記事や動画から正解を探し出す必要があった。

しかしCopilot Visionがあれば、Photoshopの画面を共有し、「この部分を明るくするにはどうすればいい?」と尋ねるだけでいい。するとCopilotは画面を認識し、新機能である「Highlights」を駆使して、「まず、このメニューをクリックし、次いでこのツールを選択してください」と、操作すべき箇所を画面上で直接ハイライト表示してくれるのだ。
この体験は、ソフトウェアの操作支援に留まらない。
- 旅行計画: 画面に表示した旅行の旅程表と持ち物リストを同時に見せ、「この旅程なら、このパッキングリストで十分?」と尋ねれば、目的地やアクティビティに基づいてアドバイスをくれる。
- ゲームプレイ: ゲームで行き詰まった際に画面を共有すれば、攻略のヒントを与えてくれる。
- クリエイティブ作業: 表示している写真を見せれば、構図やライティングの改善点を提案してくれる。
さらに、今回の正式リリースでは「マルチアプリ対応」が強化され、一度に最大2つのアプリケーションをCopilotに共有できるようになった。これにより、例えばブラウザで調べ物をしながら、Wordで文書を作成するといった複数のアプリをまたいだ作業においても、Copilotはより豊かな文脈を理解し、的確なサポートを提供することが可能になる。これは、単一アプリの操作補助を超え、ユーザーのワークフロー全体を理解する真の「アシスタント」へと進化している証左だ。
Recallとの決定的な違い:ユーザーが主導権を握るプライバシー設計
「PCが画面を見る」と聞いて、先日大きな物議を醸した「Recall」機能を思い浮かべ、プライバシーに不安を感じる読者も少なくないだろう。しかし、Copilot VisionとRecallは、その設計思想において根本的に異なる。
Microsoftが強調しているように、Copilot Visionは徹底した「オプトイン」方式を採用している。
- ユーザーによる明示的な許可が必須: ユーザーがCopilotアプリ内の「メガネ」アイコンをクリックし、共有したい特定のアプリやウィンドウを選択しない限り、Copilotが勝手に画面を見ることは絶対にない。
- 継続的な監視ではない: Recallがバックグラウンドで定期的に画面のスナップショットを撮影し続けるのとは対照的に、Copilot Visionはユーザーが共有を開始したセッション中にのみ機能する。共有を停止すれば、その「目」は完全に閉じられる。
- データは保存されない: Microsoftのサポートドキュメントによれば、ユーザーの入力、共有された画像、ページコンテンツといったプライベートな情報は、セッション終了後に破棄され、ログ記録や保存は行われない。監視目的でログが残るのは、Copilot自身の応答のみだ。
つまり、Copilot Visionの主導権は常にユーザーの手にある。これは、AIの利便性とプライバシー保護という、しばしば対立する二つの要求を両立させようとするMicrosoftの強い意志の表れと言えるだろう。
理想と現実、そして見え隠れするビジネス戦略
Copilot Visionが描く未来は魅力的だが、その実力はまだ発展途上にある。PCWorld誌が公開した先行レビューでは、Photoshopのような特定の複雑なアプリケーションでは有効性を発揮した一方で、Microsoft純正の「ソリテア」のようなシンプルなアプリでは画面の認識に失敗するなど、まだ一貫性に欠ける「そこそこの成功」と評価されている。
この性能のばらつきには、ハードウェアが大きく関係している可能性がある。当初、この機能にはNPU(Neural Processing Unit)が必須であるかのような示唆があったが、Microsoftは今回、「すべてのWindows 10/11ユーザーが利用可能」と明言した。ハードウェア要件の公式な言及はない。
しかし、前述のレビューでは、旧世代のCore Ultraプロセッサを搭載したPCでは動作が極めて遅かったのに対し、最新のCopilot+ PCではキビキビと反応したと報告されている。この事実は、重要な戦略的示唆を含んでいると筆者は考える。
つまり、MicrosoftはCopilot Visionを「誰でも使えるが、最高の体験を得るには最新のAI PC(Copilot+ PC)が必要」という形で提供しているのだ。これは、ソフトウェアの革新を通じてハードウェアの買い替え需要を喚起し、同社が推進するCopilot+ PCエコシステムを強力に後押しするための、巧みなビジネス戦略に他ならない。NPUの有無が、今後のPC体験の質を決定づけるというメッセージを、暗にユーザーに伝えているのである。
Microsoftが描く「AIコンパニオン」の未来
Copilot Visionは、単体の便利機能として捉えるべきではない。これは、Microsoftが目指す「Your everyday AI companion(あなたの日常のAI相棒)」という壮大なビジョンを実現するための、極めて重要なマイルストーンだ。
この機能が、まだ実験的な取り組みを試す「Copilot Labs」の一部として提供されていることからも、Microsoftがこれを完成形ではなく、ユーザーからのフィードバックを得ながら進化させていく「生きたプロジェクト」と位置づけていることがわかる。
PCの歴史は、CUIからGUIへ、そしてタッチや音声へと、人間とのインタラクションの形を常に進化させてきた。Copilot Visionは、その歴史に「視覚(Vision)」という新たな次元を加える試みだ。これは、WindowsというOSを、単なる作業の場から、ユーザーに寄り添い、学び、共に成長する「AIプラットフォーム」へと変革させようとするMicrosoftの野心的な挑戦の核心部分なのである。
現時点では米国限定の提供であり、その実力もまだ未知数な部分は多い。しかし、この「第二の目」が私たちのPCとの付き合い方をどのように変えていくのか。その進化の過程は、テクノロジー業界全体の未来を占う上で、決して見逃すことのできない重要な潮流となるだろう。
Sources