OpenAIは12月、ChatGPTの高度音声モード(Advanced Voice Mode)に待望のビデオ認識機能とスクリーンシェア機能を追加した。この機能強化により、ChatGPTはリアルタイムでユーザーの周囲の状況を認識し、画面の内容を理解して対話できるようになった。
新機能の概要と利用可能範囲
新機能は当初、ChatGPT Teams、Plus、Proユーザーを対象に提供される。iOSおよびAndroidのモバイルアプリで利用可能で、2024年1月にはEnterprise版とEdu版のユーザーにも展開される予定である。ただし、EUやスイス、アイスランド、ノルウェー、リヒテンシュタインのユーザーは、現時点で高度音声モードにアクセスすることができない。
機能の利用方法は直感的で、モバイルアプリのボイスアイコンをタップした後、画面左下の新しいビデオアイコンを選択するか、3点メニューから「Share Screen(画面共有)」を選択するだけである。
リアルタイムビデオ認識の実力
OpenAIが今回実装したビデオ認識機能は、ChatGPTを真のAIアシスタントへと近づける物だ。例えば、コーヒーを淹れる過程では、カメラに映った器具を単に識別するだけでなく、その時々の状況に応じて適切なアドバイスを提供することができる。フィルターの設置タイミングや、お湯を注ぐ量、さらには最終的な出来栄えまで、まるで熟練したバリスタが隣で指導しているかのような細やかなガイダンスを提供する。
この機能の特筆すべき点は、ユーザーとの自然なインタラクションにある。FaceTimeのようなビデオ通話に近い使用感を実現しており、ユーザーの動作や環境の変化にリアルタイムで反応することができる。さらに興味深いのは、ChatGPTが自己紹介した人物を記憶し、その後のやり取りでその情報を活用できる点である。これは、単なる物体認識を超えて、コンテキストを理解し維持する能力を持っていることを示している。
この技術は、HumaneのPinやRabbit r1といった専用AIデバイスが目指していた機能を、スマートフォンという身近なデバイスで実現したという点で画期的だ。専用ハードウェアを必要とせず、既存のモバイルデバイスで高度なAI支援を実現できることは、手軽さ、導入コストの低さという観点からも重要な進展といえる。
また、この機能は教育やトレーニング、遠隔サポートなどの分野での活用が期待される。例えば、複雑な機器の組み立てや修理、料理のレシピ実行、スポーツのフォーム指導など、視覚的なフィードバックが重要な場面で、きめ細かな支援を提供することが可能となる。ユーザーの動作や進捗に応じて、その場で最適なアドバイスを提供できる点は、従来の静的なマニュアルやチュートリアル動画とは一線を画している。
ただし、現時点での認識能力には一定の制約もある。光の条件や物体の配置、動きの速さなどによって認識の精度が変動する可能性があり、完全な汎用性を持つには至っていない。しかし、これらの制約は技術の発展とともに徐々に解消されていくことが期待される。
スクリーンシェア機能の可能性
合わせて発表されたスクリーンシェア機能により、ChatGPTはブラウザやアプリの画面を直接「見る」ことができるようになった。例えば、メッセージアプリを開いて、受信した写真への返信についてアドバイスを求めることができる。
この機能は、MicrosoftのCopilot VisionやGoogleのProject Astraが提供する機能と類似している。特に企業での活用が期待され、将来的にはAnthropicのComputer Useのように、AIが積極的にタブやプログラムを操作する機能への発展も示唆されている。
期間限定のサンタモード実装で季節感も演出
OpenAIは、これらの実用的な機能の実装と同時に、ホリデーシーズンを意識した遊び心のある「サンタモード」も導入した。このモードでは、ChatGPTの音声が陽気なサンタクロースの声に変化し、ビジュアル面でもボイスインターフェースが雪の結晶をモチーフにしたデザインに変更される。通常の高度音声モードにアクセスできるユーザーであれば、モバイルアプリ、Webバージョン、さらにWindowsやmacOSのアプリからもこの機能を利用できる。
サンタモードの特徴的な点は、会話の一時性にある。このモードでの対話は通常のチャット履歴には保存されず、ChatGPTのメモリにも影響を与えないよう設計されている。これは、家族で楽しむクリスマスシーズンの特別な体験として位置付けられており、2024年1月初旬までの期間限定で提供される。
この機能追加は、高度なAI技術を身近で親しみやすいものとして提示するOpenAIの戦略的なアプローチを示している。実用的な機能の実装と同時に、このような季節性のあるエンターテインメント要素を取り入れることで、テクノロジーと人間との距離感を縮める効果が期待できる。
Xenospectrum’s Take
この機能追加は、テキストベースのチャットボットからマルチモーダルAIアシスタントへの進化を象徴する重要な一歩だ。特筆すべきは、OpenAIがユーザーデータの保護に注力している点だ。ローカル処理の優先やセッション限定の暗号化など、プライバシーへの配慮が随所に見られる。
しかし、この「AIの目」の実装は、セキュリティとプライバシーに関する新たな課題も提起している。特に、企業での導入に際しては、機密情報の取り扱いに関する明確なガイドラインの策定が不可欠となるだろう。
また、EUなど一部地域でのサービス制限は、AIガバナンスの地域差が今後のAI開発にもたらす影響を示唆している。グローバルなAIサービス展開における規制対応の複雑さは、今後も増していくと予想される。
Sources
- OpenAI:
コメント