OpenAIがGPT-5クラスの推論を備えた音声AIモデル「GPT-Realtime-2」を含む3種をリリース

OpenAIは、リアルタイムでの音声処理と推論に特化した新しいAIモデル群をRealtime APIにて提供開始した。中核となる「GPT-Realtime-2」は、GPT-5クラスの推論能力を備えており、従来の音声対話機能が抱えていた処理の浅さやタスク遂行能力の限界を打破する設計となっている。

これまでの音声アシスタントは、単一の質問に対する応答には適していたが、ユーザーの発言意図を深く理解し、コンテキストを維持しながら複数のツールを呼び出すような複雑な作業においては課題が残されていた。音声対話の裏側で稼働するモデルは、テキスト入力に特化した推論モデルと比較して処理能力が制限される傾向にあったためである。GPT-Realtime-2はこれらの問題に対し、技術的なアプローチで解決を図っている。具体的には、コンテキストウィンドウが従来モデルの32,000トークンから128,000トークンへと大幅に拡張された。これにより、長時間のセッションや複雑なタスクフローにおいても、前提条件や以前の会話履歴を喪失することなく対話を継続する。

さらに、開発者は推論の強度を「minimal」「low」「medium」「high」「xhigh」の5段階から選択できるようになった。デフォルト設定は「low」であり、単純なやり取りにおける遅延（レイテンシ）を最小限に抑える一方で、より高度な問題解決が求められる場面では、より多くの計算資源を投入して回答の精度を引き上げることが可能である。性能評価指標であるBig Bench Audioにおいて、推論レベル「high」の設定では精度が96.6%に達し、旧モデルであるGPT-Realtime-1.5の81.4%から15.2ポイントの向上を記録した。複数ターンの対話における指示追従性や文脈統合能力を測るAudio MultiChallengeにおいても、「xhigh」の設定で平均合格率が34.7%から48.5%へと上昇しており、音声インターフェースの基盤技術としての実力を証明している。また、医療分野などの専門用語や固有名詞といった特定の語彙の保持能力も向上しており、本番環境での実用性が高まっている。

柔軟な対話管理とパラレルツールコールの実装

GPT-Realtime-2には、ベンチマーク上の性能向上に加え、実際の音声対話におけるユーザー体験を引き上げる機能が多数組み込まれている。顕著な変更点は、エラー発生時のリカバリー挙動の改善である。従来のモデルでは処理が滞った際やツールの実行に失敗した際、無音状態に陥ることで対話が断絶することがあったが、新モデルでは「現在処理に問題が発生している」といった状態報告を自発的に行う設計が採用された。これにより、ユーザーの混乱を防ぎ、セッションを正常に維持する。

並行して複数のツールを呼び出す「パラレルツールコール」機能も実装されている。モデルがバックグラウンドで情報検索やカレンダーの確認などのタスクを実行している間、「少し確認する」「調べている」といった短い前置き（プリアンブル）を音声で差し込む。これにより、ユーザーはシステムがフリーズしているのか、処理中であるのかを直感的に把握できる。また、状況に応じたトーンの調整機能も強化されており、問題解決時には落ち着いたトーンで、ユーザーがフラストレーションを抱えている場合には共感的なトーンで対応し、タスク完了時には明るい声色へと変化するなど、音声によるコミュニケーションの質を引き上げている。Zillowは自社の対話型アシスタントのテストにおいて、プロンプトの最適化後に最難関のタスク成功率が69%から95%へ26ポイント上昇したと報告している。

利用料金は、オーディオ入力トークンが100万あたり32ドル（キャッシュされた入力トークンは0.40ドル）、オーディオ出力トークンが100万あたり64ドルに設定されている。

リアルタイム翻訳と言語の壁を越えるGPT-Realtime-Translate

GPT-Realtime-2のリリースに伴い、音声翻訳に特化した単独モデル「GPT-Realtime-Translate」も提供が開始された。このモデルは70以上の入力言語から13の出力言語へのリアルタイム翻訳に対応し、グローバル規模でのビジネスや教育現場における言語の壁を低減する。

音声翻訳において最大の障壁となるのは、発話者のペースを維持しつつ文意を正確に変換することである。GPT-Realtime-Translateは、発話者の自然なリズムや文脈の切り替わり、さらには地域特有のアクセントや専門用語が含まれる会話であっても、遅延を抑えながら意味を保持した翻訳を出力する。インド向けの音声AIを開発するBolnaAIによれば、ヒンディー語、タミル語、テルグ語を用いたテストにおいて、他のモデルと比較して単語エラー率（Word Error Rate）が12.5%低く、フォールバック率の低下やタスク完了率の向上を確認している。Deutsche Telekomは現在、顧客サポートにおいてこのモデルをテストしており、顧客が自身の得意な言語で発話した内容をオペレーター向けにリアルタイムで変換するシステムの構築を進めている。動画配信プラットフォームのVimeoも、製品解説動画の音声をリアルタイムで多言語に翻訳する機能の検証を行っている。

GPT-Realtime-Translateの利用料金は、1分あたり0.034ドルに設定されている。

会議やワークフローを加速するGPT-Realtime-Whisper

3つ目のモデルとして投入された「GPT-Realtime-Whisper」は、低遅延のストリーミング音声認識（Speech-to-Text）モデルである。既存のWhisperモデル群がバッチ処理を前提に構築されていたのに対し、今回のバージョンは音声データが入力された端からストリーミング形式で文字起こしを実行し、レイテンシを極限まで削るように再設計されている。

このモデルの主眼は、会話が進行している最中にテキストデータを生成し、それを即座にビジネスワークフローへ組み込む点にある。これまでのオフライン型の文字起こしとは異なり、会話の終了を待たずにテキストへの変換が完了するため、オンライン会議でのライブキャプション、教育現場での字幕生成、放送やイベントでのリアルタイム字幕といった用途において高い実用性を発揮する。さらに、顧客サポートや営業の現場においては、対話内容のメモや要約を会話と並行して作成し、商談中のリアルタイムなアシスタント（エージェントによる関連資料の即時提示など）のトリガーとして機能させることが想定されている。

生成されたテキストデータは、後続の業務プロセスの自動化や、コンテキストを維持し続ける必要がある音声エージェントの入力データとしてそのまま活用される。入力の遅延が解消されることで、音声インターフェースを採用したプロダクト全体の応答性が飛躍的に向上し、人間同士の対話に近い自然なユーザー体験が実現する。

GPT-Realtime-Whisperの利用料金は、1分あたり0.017ドルとなっている。

音声AIが生み出す3つの新たな相互作用パターンと安全性

今回のリリースを通じて、OpenAIは音声AIの活用において3つの主要なパターンが台頭していると分析している。

OAI\_GPT-Realtime-2\_Three\_ways\_to\_build\_with\_voice\_AI\_desktop-dark.svg

1つ目は「Voice-to-action（音声からアクションへ）」である。ユーザーが口頭で要件を伝え、システムがその意図を推論し、必要なツールを駆使してタスクを完遂する。前述の不動産プラットフォームZillowの事例は、このパターンがいかに複雑な処理を内包しているかを示している。Zillowが構築中のアシスタントは、ユーザーの「特定のエリア内」「大通りを避ける」「予算枠内」「土曜日の内見」といった多層的な条件を音声で一度に聞き取り、バックエンドのデータベースを検索し、スケジュール調整ツールを呼び出して内見の予約を確定させる。このような多段階の推論と外部ツールの連携が、ひとつの音声コマンドからシームレスに実行される形態がこれに該当する。さらに同社は、不動産取引における法規制（Fair Housingコンプライアンス等）の遵守状況においても高い堅牢性を確認しており、本番環境に耐えうる実用水準に達していると評価している。

2つ目は「Systems-to-voice（システムから音声へ）」である。ソフトウェア側が保有するコンテキストを、リアルタイムの音声ガイダンスとしてユーザーに提供する。旅行アプリが飛行機の遅延情報を検知した際、乗り継ぎの可否や新しい搭乗口までの最短ルート、手荷物の状況などを自発的に計算し、音声で案内するような使われ方である。

3つ目は「Voice-to-voice（音声から音声へ）」であり、GPT-Realtime-Translateを用いたリアルタイムの異言語コミュニケーションが代表例である。Pricelineはこれらのパターンを複合的に活用し、フライト検索から遅延時の予約変更、さらには現地での翻訳対応など、旅行の全行程を音声で一元管理できるシステムの構築を目指している。ユーザーの置かれた状況や文脈が刻々と変化する旅行業務において、これらの音声処理能力は強力なサポート基盤となる。

安全性に関しても、Realtime APIには複数の保護層が組み込まれている。稼働中のセッションに対してアクティブな分類器（クラシファイア）が適用され、有害なコンテンツのガイドラインに違反するやり取りが検出された場合には即座にセッションを停止する。また、開発者はAgents SDKを通じて独自の安全ガードレールを追加することも可能である。利用ポリシーではスパムや欺瞞目的での利用が禁止されており、AIとの対話であることをエンドユーザーに明示する義務が課されている。

これらのモデルは現在Realtime APIを通じて提供されており、Playground環境でのテストが可能である。また、EUベースのアプリケーション向けにはEU圏内でのデータ保持（Data Residency）要件をサポートし、OpenAIのエンタープライズ向けプライバシー確約の適用対象となっている。

柔軟な対話管理とパラレルツールコールの実装

リアルタイム翻訳と言語の壁を越えるGPT-Realtime-Translate

会議やワークフローを加速するGPT-Realtime-Whisper

音声AIが生み出す3つの新たな相互作用パターンと安全性

この記事はいかがでしたか？

関連記事

OpenAIの新たなAIモデル「GPT-4o」は、人間のようにリアルタイムにテキスト、音声、写真を分析して返答でき、Siriを原始的に見せる

OpenAIが最新AI「GPT-4.5」リリース：計算効率10倍向上も「フロンティアモデル」ではないと位置付け

GPT-5.5発表、価格はGPT-5.4の2倍へ OpenAIが賭ける「少ないトークンで長い仕事」

GPT-5.5発表、価格はGPT-5.4の2倍へ　OpenAIが賭ける「少ないトークンで長い仕事」