OpenAI、ChatGPTの高度な音声機能をChatGPT PlusとTeamユーザーに順次提供開始

OpenAIは9月24日、ChatGPTの高度な音声モード（Advanced Voice Mode）を今週中に大幅に拡大展開すると発表した。当初の発表されていたスケジュールから大幅な遅延となっているが、AIとのより自然なコミュニケーションを待ち望んでいたユーザーにとって朗報となりそうだ。

OpenAIが高度な音声モードを一般展開開始

OpenAIによると、高度な音声モードは今週中に全てのChatGPT PlusおよびTeamプランの利用者に提供される。さらに、エンタープライズおよび教育機関向けのユーザーは来週から順次アクセスが可能になるという。対象ユーザーには、利用可能になった場合アプリに通知が来るようになっているとのことだ。

Advanced Voice is rolling out to all Plus and Team users in the ChatGPT app over the course of the week.

While you’ve been patiently waiting, we’ve added Custom Instructions, Memory, five new voices, and improved accents.

It can also say “Sorry I’m late” in over 50 languages. pic.twitter.com/APOqqhXtDg
— OpenAI (@OpenAI) September 24, 2024

なお、高度な音声機能は、iOS / Android モバイルアプリのバージョン1.2024.261以降で利用が可能となっている。

今回の展開で注目すべきは、高度な音声モードのデザインが一新されたことだ。従来の黒い点のアニメーションから、青い球体のアニメーションへと変更された。ユーザーは、ChatGPTアプリの音声アイコンの隣にポップアップが表示されることで、高度な音声モードが利用可能になったことを確認できる。

さらに、OpenAIは5つの新しい音声オプションを追加した。Arbor、Maple、Sol、Spruce、Valeと名付けられたこれらの音声は、既存の4つの音声（Breeze、Juniper、Cove、Ember）に加わり、合計9つの音声から選択できる。これは、GoogleのGemini Liveに匹敵する数だ。興味深いことに、これらの名前はすべて自然をモチーフとしており、高度な音声モードの目的であるAIとのより自然なコミュニケーションを反映しているようだ。

Meet the five new voices. pic.twitter.com/F9BOUaJqG1
— OpenAI (@OpenAI) September 24, 2024

高度な音声モードの改良点と今後の展望

OpenAIは、高度な音声モードのパフォーマンスも大幅に向上させたと発表している。具体的には、会話のスピードと滑らかさが改善され、特定の外国語におけるアクセントの理解も向上したという。これらの改良により、ユーザーはより自然で流暢なコミュニケーションを体験できるようになるだろう。

We’ve also improved conversational speed, smoothness, and accents in select foreign languages. pic.twitter.com/d3QOIBFCZb
— OpenAI (@OpenAI) September 24, 2024

カスタマイズ機能の強化も注目に値する。新たに「Custom Instructions」と呼ばれる設定オプションが追加され、ユーザーは高度な音声モードの応答方法をパーソナライズできるようになった。また、「メモリー」機能も導入され、ChatGPTが過去の会話を記憶し、後で参照できるようになった。これらの機能により、ユーザーはより個性的で一貫性のあるAI体験を得ることができる。

しかし、この展開にはいくつかの制限もある。OpenAIの広報担当者によると、高度な音声モードは現時点でEU、英国、スイス、アイスランド、ノルウェー、リヒテンシュタインなどの地域では利用できないという。この地域制限の理由については明らかにされていないが、データプライバシーや規制の問題が関係している可能性がある。

また、今回の発表では、OpenAIが5月に公開したGPT-4oを利用したビデオ・画面共有機能については触れられていない。この機能は、視覚情報と音声情報を同時に処理し、リアルタイムで質問に答えることができるとされていたが、現時点での展開予定は不明だ。

また、ChatGPTの高度な音声モードは無制限に利用が可能なわけではなく、ユーザー毎に利用可能時間数に制限が設けられている。残りの利用可能時間が15分を切った段階で通知が来るようだ。

Xenospectrum’s Take

OpenAIによるChatGPTの高度な音声モードの拡大展開は、AI技術の進化と普及を象徴する重要な一歩だと言える。自然な音声インターフェースの実現は、AIとの対話をより直感的かつアクセシブルなものにし、テクノロジーに不慣れな人々にもAIの恩恵をもたらす可能性がある。

既にGoogleがGeminiにおいて同様のリアルタイム会話AIチャット機能「Gemini Live」を一般提供開始しているが、こちらは英語音声での利用に制限されているため、日本語ユーザーにとってはChatGPTの高度な音声モードの登場は待望の新機能と言えるだろう。

しかし、この技術の進歩には慎重な姿勢も必要だ。音声認識の精度向上や多言語対応は素晴らしい成果だが、同時にプライバシーや個人情報保護の問題も浮上する。特に、EUなど一部地域で高度な音声モードが利用できない点は、データ保護規制との整合性を図る必要性を示唆している。

また、AIの「声」が人間のそれと区別がつかなくなることで生じる倫理的問題も考慮すべきだ。女優のScarlett Johansson氏の声に似ているとされた「Sky」の音声が取り下げられた件は、この問題の複雑さを示している。

OpenAIには、技術革新と社会的責任のバランスを取りながら、高度な音声モードの開発を進めていくことが求められる。同時に、ユーザー側も、この強力なツールを適切に活用し、その可能性と限界を理解する努力が必要だろう。

OpenAI、ChatGPTの高度な音声機能をChatGPT PlusとTeamユーザーに順次提供開始

OpenAIが高度な音声モードを一般展開開始

高度な音声モードの改良点と今後の展望

Xenospectrum’s Take

この記事はいかがでしたか？

全固体電池の実用化を阻む「デンドライト」の真犯人が判明：寿命と充電速度を3倍にするMITの新発見

熱を出さない「1原子メモリ」誕生へ。東大が電流ゼロでデータを読み書きする新原理を実証

量産開始まで1年半、2.9兆円の政府支援とRapidusの歩留まりの綱渡り

効率30%超えの世界新記録。EPFLが開発した「3接合」ペロブスカイト太陽電池の全貌

リチウム依存からの脱却なるか。次世代ナトリウム金属電池を実用レベルに引き上げる新発見

熱を出さない「1原子メモリ」誕生へ。東大が電流ゼロでデータを読み書きする新原理を実証

急速充電で劣化するのはスマホではなくEVだった：8年換算で12ポイントもの大きな開きが

CUDAをAMDへ直接通すSCALE、平均6.19倍の中身と互換性の壁

世界生産シェアわずか1.6%の中国によるヘリウム輸出禁止はなぜ世界の半導体市場に大きな影響を与えるのか

厚さ14μmのチップ10層超積層に成功、HBM4量産の目安30μmとの距離

OpenAIが高度な音声モードを一般展開開始

高度な音声モードの改良点と今後の展望

Xenospectrum’s Take

この記事はいかがでしたか？

関連記事

Apple、MacのRAMが8GBでは足りないことを認める

Apple A18 Pro、スマートフォンSoC性能ランキングで首位に &#8211; Snapdragon 8 Gen 3とDimensity 9300を上回る

AppleがA18/A18 Proプロセッサを発表：40%高速化したGPUと新AI機能搭載

Apple A18 Pro、スマートフォンSoC性能ランキングで首位に – Snapdragon 8 Gen 3とDimensity 9300を上回る