OpenAIは2026年4月末にGPT-5.5を正式公開し、同時に料金改定を発表した。入力トークンは100万件あたり2.50ドルから5.00ドルへ、出力トークンは15ドルから30ドルへ、それぞれ倍増した。キャッシュ済み入力も0.25ドルから0.50ドルへ上昇している。
この値上げに対し、OpenAIは「GPT-5.5はよりインテリジェントで、かつはるかにトークン効率が高い」と説明した。モデルが同一タスクに対してより短い応答を生成するため、出力トークン数が減少し、単価の上昇を実質的に打ち消すという論理だ。表面上は筋の通った説明に見える。しかし実際の請求データを分析すると、話はかなり異なる。
OpenRouterの「スイッチャーコホート」分析
AIモデル向けAPIルーターを運営するOpenRouterは、GPT-5.4からGPT-5.5への移行前後のコストを測定するため、「スイッチャーコホート」と呼ぶ手法を採用した。GPT-5.5のリリース前にGPT-5.4をメインモデルとして使用していたユーザーが、リリース後にGPT-5.5へ切り替えた場合に限定してデータを収集する方法だ。
同一ユーザーが同一ワークフローで異なるモデルを使用するため、タスクの性質差に起因するバイアスが最小化される。GPT-5.4とGPT-5.5は同じトークナイザーファミリーを共有しているため、トークナイザー差による補正も不要だ。測定期間はGPT-5.4側が2026年4月21〜23日、GPT-5.5側が4月25〜28日(リリース当日を除く)で、画像・ファイル・音声・動画を含むマルチモーダルリクエストやキャンセルされたリクエストは除外している。
実測値:入力長で大きく異なるコスト変動
OpenRouterが測定した完了トークン数(レスポンス長)の変動は、入力長によって方向が真逆に分かれる。
| 入力トークン数 | GPT-5.4の中央値 | GPT-5.5の中央値 | 変化率 |
|---|---|---|---|
| 2,000未満 | 121 | 129 | +7% |
| 2,000〜10,000 | 140 | 213 | +52% |
| 10,000〜25,000 | 211 | 143 | −32% |
| 25,000〜50,000 | 185 | 150 | −19% |
| 50,000〜128,000 | 188 | 136 | −28% |
| 128,000超 | 215 | 143 | −34% |
10,000トークンを超える長い入力では、GPT-5.5の応答は確かに短くなる。削減率は19〜34%の範囲で、OpenAIの主張にある程度の根拠はある。しかし短〜中程度の入力では状況が逆転する。2,000〜10,000トークンの帯域では応答が52%も増加しており、2,000トークン未満ではほぼ横ばいだ。
これを実際のコストに換算したのが以下の表だ。OpenRouterが独自にカウントするトークン数(OpenAIの請求トークンとは独立)を基準に、100万トークンあたりの平均コストを算出している。
| 入力トークン数 | GPT-5.4($/Mトークン) | GPT-5.5($/Mトークン) | 変化率 |
|---|---|---|---|
| 2,000未満 | $4.89 | $9.37 | +92% |
| 2,000〜10,000 | $2.25 | $3.81 | +69% |
| 10,000〜25,000 | $1.42 | $2.15 | +51% |
| 25,000〜50,000 | $1.02 | $1.65 | +62% |
| 50,000〜128,000 | $0.74 | $1.10 | +49% |
| 128,000超 | $0.71 | $1.31 | +85% |
最もコスト増が抑えられたのは50,000〜128,000トークンの帯域で+49%。最も深刻なのは2,000トークン未満で+92%という結果だ。OpenAIが「効率化で相殺される」と説明したにもかかわらず、どの帯域でもコスト増は49%を下回ることがなかった。
なぜ短プロンプトほど割高になるのか
GPT-5.5が長い入力に対してより簡潔な応答を返す傾向は、モデルの訓練方針に起因すると考えられる。長文コンテキストでは不必要な反復を避けてサマリー的な応答を生成しやすい。一方、短い入力ではコンテキストが限られているため、モデルは必要な情報を補完するべく出力を膨らませる傾向があるとみられる。
加えて、GPT-5.5は性能向上のために追加の推論ステップを実行していると推測される。長いコンテキストの処理では、その推論コストがより長い入力に分散されるため相対的な影響が小さい。短い入力では推論コストの割合が大きくなり、コスト効率が下がる。
この構造は、多数の短いAPIコールを積み重ねてタスクを実行するAIエージェントにとって特に不利だ。エージェントが1回のコールで扱うプロンプトが短ければ短いほど、実効コストの増加率が高くなる。
Anthropicも同様の方向へ——業界全体での値上がり傾向
OpenAIだけが値上げしているわけではない。Anthropicも同時期にClaude Opus 4.7を投入し、改良されたトークナイザーを採用したと説明した。しかしOpenRouterの分析では、Opus 4.7でも実際のコストは上昇した。
キャッシュ吸収を考慮に入れると、2,000トークン超の入力では実コストが12〜27%増加したという。2,000トークン未満の短いプロンプトでは、応答の短縮化によって逆にコスト削減が見られたものの、それは例外的なケースだ。Anthropicが謳う「トークナイザーの効率化」は、全ユーザーに等しく恩恵をもたらすわけではない。
GPT-5.5の49〜92%増に対してOpus 4.7が12〜27%増にとどまる差には、両社の主要顧客層の違いが反映されている可能性がある。Anthropicは大規模エンタープライズ向けの長文処理ユースケースに顧客が集中しており、新しいトークナイザーによる効率化が相対的に効きやすい構成になっていると考えられる。一方、OpenAIはコンシューマー向けの短プロンプト利用が多く、そこで応答の短縮効果が働かないことがコスト増を大きく見せる要因になっている。
両社がIPOへ向かう中で財務圧力が高まっていることも、この傾向の背景にある。OpenAIは2026年に140億ドルの損失を計上するとの試算が報じられており、Anthropicでも110億ドルの赤字が予測されている。フロンティアモデルの開発・維持にかかるコンピュート費用は膨大で、それをユーザーへ転嫁する形で値上げが進む構造は当面変わらないだろう。
なお、OpenAIの値上げに関してはArtificial Analysisが別途ベンチマーク比較を実施しており、そちらでは値上げ幅が20%程度にとどまるという結果も出ている。ただし、それは標準的なベンチマークタスクを使った測定であり、実際のユーザーワークフローとは性質が異なる。プロダクション環境での実コストを測定したOpenRouterのデータとは直接比較できない。
実運用での最適化戦略
組織がGPT-5.4からGPT-5.5への移行を検討する場合、トークン単価の変化だけを見て判断するのは危険だ。自社のトラフィックパターンを実測し、入力プロンプトの平均長を把握することが出発点になる。
長文入力(10,000トークン超)が主体の用途——例えば大量のドキュメントを一括処理するパイプラインや、長いコードベースを対象としたコードレビューツール——では、GPT-5.5への移行コストは比較的抑えられる可能性がある。一方、チャットボットやAPIを通じた短いQ&A応答、あるいは頻繁な短コールを繰り返すエージェントワークフローでは、実効コストがほぼ倍増する最悪ケースに近づくリスクがある。
コスト評価の指標を「トークン単価」ではなく「タスク単価」に切り替えることが出発点だ。具体的には、同一タスクをGPT-5.4とGPT-5.5に並行実行し、測定期間を少なくとも3〜5日確保した上で実請求額を比較する。100リクエスト未満のサンプルでは入力長の分布が偏りやすく、判断を誤るリスクがある。自社のプロンプトが主に10,000トークンを超えるか否かで、移行判断の結論は正反対になる。