OpenAIは、ChatGPTの音声に「Breeze、Cove、Ember、Juniper、Sky」という名の5つのモデルを提供しているが、そのうちの「Sky」について、一時使用を中止すると発表した。その理由については明確には述べられていないが、それと同時にブログを公開し、どのように音声が選ばれたのかを解説している。
音声「Sky」が有名俳優に酷似?
OpenAIは、先日新たなAIモデル「GPT-4o」をリリースし、そのデモの中でAIチャットボットと人間がスムーズに会話を繰り広げる様を披露した。その様子を見た人々の間では、これをScarlett Johansson主演の映画『her』を連想させるものとして話題になり、OpenAIのSam Altman氏もこれに反応し、実際にGPT-4oの開発のインスピレーションがこの映画にあった事を明かしている。
今回同社は、ChatGPTの音声モデルがどのように選ばれたのかを詳しく解説しているが、その中で「Sky」の音声に関して、特別に「Skyの声はScarlett Johanssonを真似たものではなく、彼女自身の自然な話し声を使っている別のプロの女優のものです」と、述べている事から、こうした誤解の問い合わせが多くあったことが、今回のSkyに関する一時使用中止の背景にあるのではと予想される。
膨大なプロセスを経て、400人以上の応募から最終的に5人が選出された
今回OpenAIがこうした騒動を受けて、ChatGPTの音声がどのように選出されたのかを説明する必要があると判断したのだろう。
OpenAIによれば、プロの声優、タレントエージェンシー、キャスティングディレクター、業界アドバイザーなど、5ヶ月に及ぶ膨大なプロセスを経て、「Breeze、Cove、Ember、Juniper、Sky」のボイスアクターは選出されたという。
同社は、独立系で有名な受賞歴のあるキャスティング・ディレクターやプロデューサーと提携し、以下の様なChatGPTの声の基準を作成したとのことだ:
- 多様なバックグラウンドを持つ俳優、または複数の言語を話すことができる俳優
- 時代を超越した声
- 信頼感を与える親しみやすい声
- 温かく、魅力的で、自信を与え、豊かなトーンのカリスマ的な声
- 自然で聞き取りやすい
その後、オーディションの募集を行ったが、1週間で400件以上の応募があったという。ChatGPTの回答台本を使って、実際に録音が行われ、14人に絞り込んだという。
OpenAIの内部チームが製品および研究の観点から音声を検討し、慎重に検討した結果、最終的にBreeze、Cove、Ember、Juniper、Skyの5人の音声が選ばれたとのことだ。
彼らとの関わりは、一度の録音で終了ではなく、音声研究とGPT-4oの新しい音声機能のための追加作業に貢献してくれた俳優とのコラボレーションを続けているという。
ちなみに、各ボイスアクターは、市場のトップレート以上の報酬を受け取っており、これは彼らの声が私たちの製品で使用されている限り継続されるとのことだ。
GPT-4oのボイスモードがついに追加される
OpenAIは最後に、GPT-4oの新たなボイスモードが、今後数週間以内にChatGPT Plus(有料サブスクリプションプラン)ユーザーに提供されると述べている。GPT-4oでは、音声でChatGPTと対話することがより自然に行え、割り込みをスムーズに処理し、グループ会話を効果的に管理し、バックグラウンドノイズをフィルタリングし、トーンに適応してくれるとのことだ。
加えて、ユーザーの多様な興味や嗜好によりマッチするよう、ChatGPTに新たな音声を導入する予定であることも明らかにしている。
Source
コメント