OpenAIは、当初のリリース予定から遅延していた新たなChatGPTの音声技術「Advanced Voice Mode」のアルファテストをついに開始したと発表した。この機能は、ChatGPTとのコミュニケーションを一段と自然で直感的なものへと進化させる可能性を秘めたものだ。現在は一部のChatGPT Plus会員のみがこの先進的な機能を試用できるが、2024年秋には全ての有料会員に展開される予定だという。
高度な機能と共にAIへの新たな懸念も生み出した
この新機能の核心は、OpenAIが5月に発表したGPT-4oモデルにある。従来の音声機能が音声認識、テキスト処理、音声合成の3つの独立したモデルを使用していたのに対し、GPT-4oは単一のマルチモーダルモデルでこれらのタスクを統合的に処理する。この革新的なアプローチにより、会話の遅延が大幅に削減され、よりスムーズで自然な対話が可能となった。
さらに注目すべきは、Advanced Voice Modeが感情認識能力を備えている点だ。ユーザーの声の抑揚や感情的なニュアンスを察知し、それに応じた適切な反応を返すことができる。また、ユーザーはいつでも会話を中断し、新たな指示を与えることが可能となり、より柔軟な対話体験を提供している。
しかし、この先進的な技術の開発過程は平坦ではなかった。5月のデモンストレーションで使用された「Sky」という音声が、映画『Her』でAIアシスタントを演じた女優Scarlett Johanssonの声に酷似していたことから、大きな論争を巻き起こした。Johansson氏は法的対応を検討し、OpenAIはデモで使用した音声の撤回を余儀なくされた。この出来事は、AI技術の進化に伴う倫理的問題や著作権の課題を浮き彫りにした。
この問題を受け、OpenAIは安全性の向上に注力した。100人以上の外部専門家「レッドチーマー」を起用し、45の言語で徹底的なテストを実施。さらに、音楽やその他の著作権で保護されたオーディオの生成要求をブロックする新たなフィルター機能も実装された。
現在のAdvanced Voice Modeでは、OpenAIが声優と協力して作成した4つのプリセット音声(Juniper、Breeze、Cove、Ember)のみが使用可能となっている。OpenAIの広報担当者Lindsay McCallum氏は、「ChatGPTは他の人々の声、個人や公人の声を模倣することはできず、これらのプリセット音声以外の出力をブロックします」と述べ、プライバシーと著作権保護に対する会社の姿勢を明確にした。
この慎重な段階的リリースにより、OpenAIは機能の使用状況を綿密に監視し、安全性と効果を確認しながら、より多くのユーザーに提供していく方針だ。また、8月初旬には安全性に関する詳細なレポートが公開される予定となっており、AI技術の透明性向上にも努めている。
OpenAIはこのアルファテストで得られた知見をもとに改良を進め、この新たな音声モードを秋にも全てのChatGPT Plusユーザーに展開するとしている。
コメント