OpenAIは9月24日、ChatGPTの高度な音声モード(Advanced Voice Mode)を今週中に大幅に拡大展開すると発表した。当初の発表されていたスケジュールから大幅な遅延となっているが、AIとのより自然なコミュニケーションを待ち望んでいたユーザーにとって朗報となりそうだ。
OpenAIが高度な音声モードを一般展開開始
OpenAIによると、高度な音声モードは今週中に全てのChatGPT PlusおよびTeamプランの利用者に提供される。さらに、エンタープライズおよび教育機関向けのユーザーは来週から順次アクセスが可能になるという。対象ユーザーには、利用可能になった場合アプリに通知が来るようになっているとのことだ。
Advanced Voice is rolling out to all Plus and Team users in the ChatGPT app over the course of the week.
— OpenAI (@OpenAI) September 24, 2024
While you’ve been patiently waiting, we’ve added Custom Instructions, Memory, five new voices, and improved accents.
It can also say “Sorry I’m late” in over 50 languages. pic.twitter.com/APOqqhXtDg
なお、高度な音声機能は、iOS / Android モバイル アプリのバージョン1.2024.261
以降で利用が可能となっている。
今回の展開で注目すべきは、高度な音声モードのデザインが一新されたことだ。従来の黒い点のアニメーションから、青い球体のアニメーションへと変更された。ユーザーは、ChatGPTアプリの音声アイコンの隣にポップアップが表示されることで、高度な音声モードが利用可能になったことを確認できる。
さらに、OpenAIは5つの新しい音声オプションを追加した。Arbor、Maple、Sol、Spruce、Valeと名付けられたこれらの音声は、既存の4つの音声(Breeze、Juniper、Cove、Ember)に加わり、合計9つの音声から選択できる。これは、GoogleのGemini Liveに匹敵する数だ。興味深いことに、これらの名前はすべて自然をモチーフとしており、高度な音声モードの目的であるAIとのより自然なコミュニケーションを反映しているようだ。
Meet the five new voices. pic.twitter.com/F9BOUaJqG1
— OpenAI (@OpenAI) September 24, 2024
高度な音声モードの改良点と今後の展望
OpenAIは、高度な音声モードのパフォーマンスも大幅に向上させたと発表している。具体的には、会話のスピードと滑らかさが改善され、特定の外国語におけるアクセントの理解も向上したという。これらの改良により、ユーザーはより自然で流暢なコミュニケーションを体験できるようになるだろう。
カスタマイズ機能の強化も注目に値する。新たに「Custom Instructions」と呼ばれる設定オプションが追加され、ユーザーは高度な音声モードの応答方法をパーソナライズできるようになった。また、「メモリー」機能も導入され、ChatGPTが過去の会話を記憶し、後で参照できるようになった。これらの機能により、ユーザーはより個性的で一貫性のあるAI体験を得ることができる。
しかし、この展開にはいくつかの制限もある。OpenAIの広報担当者によると、高度な音声モードは現時点でEU、英国、スイス、アイスランド、ノルウェー、リヒテンシュタインなどの地域では利用できないという。この地域制限の理由については明らかにされていないが、データプライバシーや規制の問題が関係している可能性がある。
また、今回の発表では、OpenAIが5月に公開したGPT-4oを利用したビデオ・画面共有機能については触れられていない。この機能は、視覚情報と音声情報を同時に処理し、リアルタイムで質問に答えることができるとされていたが、現時点での展開予定は不明だ。
また、ChatGPTの高度な音声モードは無制限に利用が可能なわけではなく、ユーザー毎に利用可能時間数に制限が設けられている。残りの利用可能時間が15分を切った段階で通知が来るようだ。
Xenospectrum’s Take
OpenAIによるChatGPTの高度な音声モードの拡大展開は、AI技術の進化と普及を象徴する重要な一歩だと言える。自然な音声インターフェースの実現は、AIとの対話をより直感的かつアクセシブルなものにし、テクノロジーに不慣れな人々にもAIの恩恵をもたらす可能性がある。
既にGoogleがGeminiにおいて同様のリアルタイム会話AIチャット機能「Gemini Live」を一般提供開始しているが、こちらは英語音声での利用に制限されているため、日本語ユーザーにとってはChatGPTの高度な音声モードの登場は待望の新機能と言えるだろう。
しかし、この技術の進歩には慎重な姿勢も必要だ。音声認識の精度向上や多言語対応は素晴らしい成果だが、同時にプライバシーや個人情報保護の問題も浮上する。特に、EUなど一部地域で高度な音声モードが利用できない点は、データ保護規制との整合性を図る必要性を示唆している。
また、AIの「声」が人間のそれと区別がつかなくなることで生じる倫理的問題も考慮すべきだ。女優のScarlett Johansson氏の声に似ているとされた「Sky」の音声が取り下げられた件は、この問題の複雑さを示している。
OpenAIには、技術革新と社会的責任のバランスを取りながら、高度な音声モードの開発を進めていくことが求められる。同時に、ユーザー側も、この強力なツールを適切に活用し、その可能性と限界を理解する努力が必要だろう。
コメント