Googleは最近、AIアシスタント「Gemini」に新たな機能「Canvas」と「Audio Overviews」を追加したと発表した。Canvasはドキュメントやコードをリアルタイムで編集できる対話型スペースで、Audio Overviewsは文書をポッドキャスト形式の音声に変換する機能である。これらの新機能は、ユーザーの創造性向上とマルチタスキング支援を目的としている。
リアルタイム編集を可能にする「Canvas」

Canvas機能は、Geminiのプロンプトバー内に新たに追加された対話型編集環境だ。同様の機能は、OpenAIのChatGPT、AnthropicのClaudeにも導入されていたが、今回Google Geminiにもついに待望の機能が搭載された。この機能によって、ユーザーはAIと協力しながらドキュメントやコードをシームレスに作成・編集できるようになる。
ドキュメント編集においては、AIに指示を出すだけで高品質な初稿を生成し、その後リアルタイムで改善していくことが可能だ。特定の段落をハイライトして「より簡潔に」「プロフェッショナルな調子に」といった指示を出せるため、従来のチャット形式でのやり取りよりも効率的に編集作業が進められる。完成したドキュメントはワンクリックでGoogle Docsにエクスポートでき、他のユーザーとの共有も容易になっている。
コーディング面では、CanvasはWebアプリ、Pythonスクリプト、ゲーム、シミュレーションなどのプロトタイプ開発を迅速化する。HTML/Reactコードを生成すると同時に、その見た目と機能をリアルタイムでプレビューできるのが特徴だ。生成されたアプリのボタンをクリックしたり、アニメーションを確認したりと、UIと実際に対話することも可能になっている。
GoogleのGeminiアプリ製品管理シニアディレクターであるDave Citron氏は、「Canvasは全てのコーディングプロセスを簡素化し、複数のアプリケーションを切り替える手間なく、コードの作成、編集、共有に集中できるようにします」と述べている。
ドキュメントをポッドキャストに変換する「Audio Overviews」
Audio Overviewsは、ドキュメント、スライド、さらにはDeep Researchツールからの長文レポートを、ポッドキャストスタイルの音声ディスカッションに変換する革新的な機能だ。この機能は、2人のAIホストによる会話形式で情報を提供する。
利用方法は非常に簡単で、ドキュメントをアップロードし、プロンプトバー上部に表示される「Generate Audio Overview」ボタンをクリックするだけである。すると、AIホストたちが内容の要約、トピック間の関連付け、活気ある議論を展開する音声が生成される。興味深いことに、時にはAIホスト自身が架空のポッドキャスト番組名を付けることもあるという。
この機能は元々、GoogleのNotebookLMという別製品で2024年に導入されたものだが、Geminiの一部としてより多くのユーザーに提供されるようになった。特筆すべきは、Googleの無料Deep Research機能と統合されている点だ。Webを検索して作成されたDeep Researchレポートからも、ワンクリックでオーディオコンテンツを生成できる。
Audio Overviewsの最大の利点は、運転中や家事をしている間など、手や目が他のタスクに占有されている時でも情報を取得できる点にある。ただし、他のAI生成コンテンツと同様に不正確な情報が含まれる可能性があるため、未知の情報を学習する目的での使用には注意が必要だという。
利用可能性と対象ユーザー
Googleによれば、Canvas機能とAudio Overviews機能は既に全世界で利用可能になっている。Canvasは、Geminiアプリがサポートするすべての言語で利用できる。一方、Audio Overviewsは現時点では英語のみの対応だが、今後数週間以内に他の言語も追加される予定だ。
両機能とも、無料版を含むすべてのGeminiユーザーが利用できる点が注目に値する。Audio OverviewsはWebとモバイルアプリの両方からアクセス可能で、生成された音声コンテンツは共有やダウンロードも可能となっている。
AIアシスタントの進化と今後の展望
GoogleのCanvas機能がOpenAIのChatGPTに搭載されている同名の機能と似たものを導入していることは、主要AI企業間の機能競争が続いていることを示唆していると言えるだろう。
Googleは最近Geminiに相次いで新機能を追加しているが、これらの新機能はGeminiアプリをより「エージェント的」にする取り組みの一環だ。「エージェント的」とはAIがユーザーに代わって主体的にタスクを遂行する能力を指す。Dave Citron氏は「これはAIが代わりに物事を成し遂げるという考え方であり、単に照明をつけるような単純なことだけではなく、数年前まではAIで可能だとは思えなかったような素晴らしいことをますます実現できるようになっています」と説明している。
Googleは今年初めからGeminiエコシステムを大幅に拡張しており、Gemini Liveのビデオと画面共有サポートの追加、AndroidのデフォルトAIアシスタントとしてのGoogle アシスタントからGeminiへの移行計画など、多くの新機能を発表している。さらに、Gemini 2.0 Flash、Flash Lite、2.0 Proという3つの新しいモデルも導入された。
これらの機能強化は、AIが単なる質問応答ツールから、ユーザーの創造性と生産性を高める真のコラボレーターへと進化していることを示している。今後もGoogleはGeminiの機能をさらに拡充し、競争が激化するAIアシスタント市場での優位性を確保していくことが予想される。
Source