Googleは、検索の実験的機能「AIモード」にGoogle Lensのマルチモーダル機能を統合したことを発表した。この機能強化により、ユーザーは画像をアップロードして複雑な質問を投げかけ、文脈に沿った詳細な回答を得ることができるようになった。同時に、当初はGoogle One AI Premium加入者限定だったこのサービスを、米国内の「何百万人もの」Labsユーザーに拡大している。
AIモードに待望の「見る」能力 – マルチモーダル機能の統合
Google検索における実験的な取り組みである「AIモード」は、これまでテキストベースでの複雑な質問応答に特化していたが、今回、大きな進化を遂げた。「マルチモーダル」機能の統合である。マルチモーダルとは、テキスト、画像、音声など、複数の異なる種類のデータを組み合わせて処理する能力を指す。
今回のアップデートにより、AIモードはGoogle Lensの高度な画像認識能力を獲得した。これは単に画像内の物体を認識するだけでなく、Geminiモデルとの連携により、画像全体のシーン、物体同士の関係性、素材感、色、形状、配置といった文脈まで理解できるようになったことを意味する。
ユーザーはAIモードのインターフェース内で直接、スマートフォンのカメラで写真を撮影するか、デバイスに保存されている画像をアップロードし、それに関する質問を投げかけることができる。例えば、棚に並んだ本の写真を提示し、「これらの本を楽しんだ私におすすめの類似作品は?」といった質問が可能になる。
この機能は、従来のGoogle Lensが提供してきた体験を一歩進めるものだ。単に物体を特定したり、類似商品を検索したりするだけでなく、画像の内容についてより深く、対話的に探求することを可能にする。
具体的に何ができる?画像を使った検索の進化
この新しいマルチモーダル機能は、具体的にどのような検索体験をもたらすのか。Googleが提示する例を見てみよう。
あるユーザーが本棚の写真をAIモードにアップロードし、「もし私がこれらを楽しんだとしたら、他にどんな類似の本が好きそうですか?」と質問する。
- 画像全体の理解: AIモードはまず、画像全体が本棚であり、複数の本が並んでいる状況を理解する。
- オブジェクト認識 (Lens連携): Google Lensの技術を活用し、棚にある各書籍を正確に特定する。
- 複数クエリ生成 (Query Fan-out): 特定された個々の書籍や画像全体の文脈に基づき、AIモードは内部で複数の検索クエリを自動生成する(Googleはこの技術を「query fan-out」と呼んでいる)。これにより、個々の書籍の情報、ジャンル、評価、類似作品など、多角的かつ深い情報を収集する。
- 統合された回答生成: 収集された情報を基に、Geminiモデルが文脈に即した包括的な回答を生成。おすすめの書籍リストを、詳細情報や購入先へのリンク付きで提示する。
- 対話的な絞り込み: ユーザーはさらに、「すぐに読める本を探しているのですが、これらのおすすめの中で一番短いものはどれですか?」といったフォローアップの質問をすることで、回答を絞り込むことができる。
このように、AIモードのマルチモーダル検索は、単一の質問応答にとどまらず、ユーザーの意図を汲み取りながら対話的に情報を深掘りしていくことを可能にする。重要なのは、これらのプロセスがAIモードのインターフェース内で完結するため、従来のようにGoogle検索とGoogle Lensアプリを行き来する必要がなくなる点だ。これにより、よりシームレスで効率的な情報探索が実現する。
Googleの狙いとAI検索の未来
GoogleがAIモードにマルチモーダル機能を導入し、提供範囲を拡大する背景にはいくつかの要因がある。
まず、Google自身の発表によれば、AIモードの初期ユーザーからは「クリーンなデザイン」「応答速度の速さ」「複雑でニュアンスのある質問を理解する能力」に対して非常に肯定的なフィードバックが得られているという。特筆すべきは、AIモードでの検索クエリ(質問文)の長さが、従来のGoogle検索と比較して平均で2倍になっている点だ。これは、ユーザーがより探索的で自由回答形式の質問や、製品比較、ハウツー、旅行計画といった、より複雑なタスクにAIモードを活用していることを示唆している。
一方で、クエリが長くなることは、ユーザーがAIに対してより多くの文脈を提供する必要があると感じている可能性も示している。いずれにせよ、ユーザーが従来の検索とは異なる方法でAIモードを利用していることは明らかであり、Googleはこの利用動向を肯定的に捉え、機能強化を進めている。
また、PerplexityやOpenAIのChatGPT Searchといった、生成AIを活用した新しい検索サービスの台頭も無視できない。Googleにとって、AIモードの強化は、検索市場におけるリーダーシップを維持し、ユーザーの期待に応え続けるための重要な戦略と見ることが出来る。特に、視覚情報と組み合わせた高度な情報検索は、テキストベースの検索だけでは満たせないニーズに応えるものであり、Googleの長年にわたる画像検索技術(Google Lens)と最新のAIモデル(Gemini)の組み合わせは、強力な競争優位性となりうる。
当初、Google検索への生成AI導入に対しては、検索体験を悪化させるという批判もあった。しかし、Gemini 2.0の導入や今回のAIモードの改善により、Googleはより高品質で実用的なAI検索体験の提供を目指していることがうかがえる。
利用対象者とアクセス方法
AIモードのマルチモーダル機能は、現在、米国内のGoogle Search Labsプログラム参加者向けに順次展開されている。
利用資格のあるユーザーは、Googleアプリ(AndroidおよびiOS)またはWeb版のGoogle検索において、「すべて」タブの左隣に表示される「AIモード」のタブまたはボタンからアクセスできる。現時点では、この方法でのみAIモードを利用可能だ。
利便性の観点からは、AIモードで新しい検索を開始するたびにホーム画面に戻る必要があるという点は課題として認識されている。しかし、Googleはこの点を改善するため、AIモードのインターフェース内に新しい会話をすぐに開始できるショートカットボタンを導入する作業をすでに開始しており、これも順次展開される見込みだ。
日本での展開については現時点で不明だが、米国でのテストとフィードバックを経て、将来的にはより多くの地域やユーザーに提供される可能性がある。AIモードはまだ実験的な機能であり、Googleは今後もユーザーからのフィードバックに基づき、改善を続けていくとしている。
Source