OpenAI、AIアプリ開発者がChatGPTの高度な音声モードを簡単に実装できる「Realtime API」など多数の新機能を発表

2024年10月2日

当記事のリンクにはアフィリエイト広告が含まれています。

OpenAIが2024年10月28日、サンフランシスコで開催されたDevDay 2024において、開発者向けの多くの新機能を発表した。今年のDevDayは、サンフランシスコを皮切りに、ロンドン（10月30日）、シンガポール（11月21日）と、グローバルな展開を見せている。

Realtime API: 音声対話アプリケーション開発の新時代

今回の発表の中で最も注目を集めたのが、パブリックベータ版として公開された「Realtime API」だ。この新APIは、開発者がアプリケーションに、ChatGPTで最近リリースされたような高度な音声対話機能を簡単に実装できるようにするものだ。

Realtime APIの主な特徴は以下の通りである：

6種類のプリセット音声を使用した音声対話が可能
ChatGPTの Advanced Voice Mode (AVM) に類似した機能をアプリに実装可能
音声認識、テキスト処理、音声合成を1回のAPI呼び出しで処理

OpenAIによると、これまで開発者は音声アシスタントを作成する際、複数のモデルを使用して音声認識、テキスト処理、テキスト音声変換を行う必要があった。Realtime APIはこのプロセスを大幅に簡素化し、単一のAPI呼び出しで全てを処理できるようになった。

さらに、OpenAIは既存のChat Completions APIにも音声入出力機能を追加すると発表した。この新機能は数週間以内に利用可能になる予定で、開発者はテキストまたは音声で入力し、同様に両方の形式で応答を受け取ることができるようになる。

これらの機能強化により、開発者はより自然で柔軟な対話型アプリケーションを容易に作成できるようになる。例えば、旅行プランニングアプリでは、ユーザーが音声で目的地や興味のある活動について話すだけで、AIアシスタントがリアルタイムで応答し、地図上にレストランの提案を追加するといったことが可能になる。

また、この技術は電話での注文受付など、様々な用途に応用できる。ただし、OpenAIは現時点でAI音声であることの自動開示は行っておらず、この点については開発者の判断に委ねられている。

モデル最適化とコスト削減: 開発者の新たな武器

OpenAIは、開発者がAIアプリケーションのパフォーマンスとコストのバランスを取るための新機能も発表した。

Model Distillation: 小さなモデルで大きな性能

「Model Distillation（モデル蒸留）」と呼ばれる新機能は、小規模で低コストなモデル（GPT-4o miniなど）を、より高度なモデル（GPT-4oやo1-previewなど）の出力を使ってファインチューニングする手法だ。これにより、開発者は低コストモデルでありながら、より関連性の高い精度の高い出力を得られる可能性がある。

OpenAIはこの機能をAPIを通じて提供する。開発者は同社のフロンティアモデルにプロンプトを送信し、そのモデルの応答をAIトレーニングデータセットに変換できる。このデータセットは、より小規模なニューラルネットワークの品質向上に利用できる。

Prompt Caching: 50%のコスト削減と高速化

「Prompt Caching（プロンプトキャッシング）」は、頻繁に使用されるプロンプト（入力トークン）を記憶することで推論（AIモデルによる出力生成）を高速化する機能だ。これにより、入力トークンに対して50%の割引が適用され、処理時間も短縮される。

この機能は、GPT-4o、GPT-4o mini、o1-preview、o1-mini、およびこれらのモデルのファインチューニングバージョンの最新バージョンに自動的に適用される。

画像処理の新機能: Vision Fine-tuning

OpenAIは、GPT-4oの画像処理能力を強化する「Vision Fine-tuning（視覚ファインチューニング）」機能も発表した。この機能により、開発者はカスタム画像データセットをChatGPT-4oに提供し、コンピュータビジョンタスクの性能を向上させることができる。

例えば、GPT-4oを使用してWebサイトレイアウトを生成する企業は、サンプルデザインのコレクションをモデルに提供できる。同様に、スキャンした文書からデータを抽出するためにモデルを利用している組織は、以前に処理したファイルで学習させることで精度の問題を軽減できる。OpenAIによると、わずか100枚の画像からなるファインチューニングデータベースでGPT-4oのパフォーマンスを向上させることができる。

これらの新機能により、開発者はOpenAIの高度なAI技術をより効率的かつ柔軟に活用できるようになる。コスト削減と性能向上の両立は、AIアプリケーション開発の新たな可能性を切り開くものと期待される。

Xenospectrum’s Take

OpenAIのDevDay 2024で発表された一連の新機能は、開発者によるAI開発効率を大きく引き上げる物だ。特にRealtime APIは、音声対話アプリケーションの開発障壁を大幅に下げ、より自然で直感的なユーザーインターフェースの創造を可能にする。これは、AIと人間のインタラクションの在り方を根本から変える可能性を秘めている。

一方で、Model DistillationやPrompt Cachingといったコスト削減機能は、AI技術の商業利用における大きな課題の一つであるコスト問題に対する実用的な解決策を提示している。これらの機能は、スタートアップや中小企業にとって特に重要で、高度なAI技術へのアクセスを容易にするだろう。

Vision Fine-tuningの導入は、コンピュータビジョン分野におけるGPT-4oの応用可能性を大きく広げるものだ。医療画像分析や自動運転車の物体検出など、高度な視覚認識が求められる分野での活用が期待される。

OpenAIのこれらの新機能は、AI技術の実用化と普及を加速させる重要な一歩だ。今後、これらの技術がどのように社会に浸透し、私たちの生活や仕事をどう変えていくのか、注目していく必要がある。

Sources