医療・法律・金融の質問では、AI(人工知能)の誤答が実害に直結しやすい。投薬情報の誤解、法令解釈のミス、投資判断の失敗は、その典型例だ。ChatGPTの既定モデルには、速度や会話の自然さと同じ水準で、高リスク領域での正確性が求められるようになっている。
OpenAIは2026年5月5日、GPT-5.5 InstantをChatGPTのデフォルトモデルとして段階的に展開し、GPT-5.3 Instantを置き換えると発表した。高リスク質問でのハルシネーションは52.5%削減し、数学テスト(AIME 2025)のスコアは65.4点から81.2点へ上昇している。
52.5%減が示す既定モデルの役割変更
GPT-5.5 Instantは、2026年5月5日からChatGPTのデフォルトモデルとしてロールアウトされた。従来のGPT-5.3 Instantを置き換えるモデルで、ChatGPTの通常利用時に最初に呼び出される存在になる。OpenAIは、医療・法律・金融の高リスク質問でハルシネーションを52.5%削減したと説明している。
医療・法律・金融の質問では、事実と推測の混同が回答品質を大きく左右する。ハルシネーションとは、モデルがもっともらしい文を生成しながら、根拠のない内容や誤った内容を含める現象である。大規模言語モデルは次に来る語を予測して文章を作るため、知識の欠落や曖昧な質問があると、存在しない根拠を補ってしまう場合がある。高リスク領域での削減率が強調されたのは、ChatGPTを業務利用へ広げるうえで、この弱点が最大級の障壁だからだ。
AIME 81.2点、MMMU-Pro 76点に上がった公開指標
AIME(American Invitational Mathematics Examination)2025では、GPT-5.5 Instantが81.2点を記録した。GPT-5.3 Instantの65.4点から15.8ポイントの改善であり、OpenAIが公開した数値のなかでも差が大きい。MMMU-Pro(Massive Multi-discipline Multimodal Understanding-Pro)のマルチモーダル推論では76点で、前モデルの69.2点から6.8ポイント上がっている。
| 評価項目 | GPT-5.3 Instant | GPT-5.5 Instant | 改善幅 |
|---|---|---|---|
| AIME 2025 | 65.4点 | 81.2点 | +15.8ポイント |
| MMMU-Pro | 69.2点 | 76.0点 | +6.8ポイント |
| 高リスク質問のハルシネーション | 基準値 | 52.5%削減 | — |
| ユーザーが誤りとフラグした会話の不正確性 | 基準値 | 37.3%削減 | — |
回答スタイルでは、語彙が30.2%減り、行数が29.2%減ったと報じられている。絵文字の使用も減らされ、直接的で短い回答に寄せた設計だ。性能向上と文体の圧縮が同時に扱われている点は、ChatGPTが「よく答える」段階から「余計に答えすぎない」段階へ移っていることを示す。
GPT-5.5フル版とInstant版は何が違うのか
GPT-5.5(フル版)は2026年4月23日に発表され、API(Application Programming Interface)は4月24日から提供された。API価格は100万入力トークンあたり5ドル、100万出力トークンあたり30ドルで、100万トークンの文脈ウィンドウを持つ。GPT-5.5 Instantは、その後に投入された高速・汎用向けの軽量版である。両者は同じGPT-5.5系でも、想定される利用場面が異なる。
| 項目 | GPT-5.5(フル版) | GPT-5.5 Instant |
|---|---|---|
| 発表時期 | 2026年4月23日 | 2026年5月5日 |
| 主な用途 | 複雑な推論、大規模文脈処理 | ChatGPTの既定モデル、日常利用 |
| API提供 | 4月24日から提供 | chat-latestとして提供 |
| 位置づけ | 高性能版 | 高速・汎用版 |
GPT-5.5 Instantの投入は、最上位モデルの性能をそのまま全利用者へ配る戦略ではない。ChatGPTの標準体験では、待ち時間、コスト、正確性、回答の短さを同時に調整する必要がある。Instant版は、その均衡点を担うモデルだ。
Plus・Proで進む文脈管理とメモリの見える化
Plus・Proユーザー向けWeb版では、過去会話、ファイル、Gmailを参照したパーソナライズ回答が提供開始された。OpenAIは、モバイル版への展開も予定している。回答生成に使われた保存メモリや過去チャットなどのコンテキストを表示する機能は、全ChatGPTモデルで実装された。ユーザーが「なぜこの回答になったのか」を確認しやすくする変更である。
保存メモリや過去チャットの参照は、モデルへの質問文を長くする代わりに、関連する文脈を自動的に補う仕組みである。たとえば、過去に共有した業務資料やメールの流れが参照されれば、同じ説明を繰り返さずに回答が作られる。メモリソース透明性は、その補われた文脈の出所を利用者に示すための機能だ。パーソナライズの利便性と、参照された情報を確認する権利を近づける設計といえる。
開発者はchat-latest移行と旧モデル残存期間を確認すべきだ
開発者向けAPIでは、GPT-5.5 Instantが「chat-latest」として利用できる。GPT-5.3 Instantは有料ユーザー向けに3ヶ月間残る予定であり、急な切り替えを避ける猶予が設けられている。既存アプリケーションで出力形式や応答長に依存している場合、語彙30.2%減、行数29.2%減というトーン変更はテスト対象になる。チャットボット、社内検索、メール下書き生成では、短い回答が品質改善にも仕様変更にもなり得るだろう。
GPT-5.3 Instantが3ヶ月残る予定は、比較検証の時間を開発者に与える。移行時は、同じプロンプトをGPT-5.3 InstantとGPT-5.5 Instantに投げ、正確性、出力長、拒否応答、引用形式を確認するのが現実的だ。ChatGPTの既定モデル更新は消費者向けのニュースに見えるが、API連携アプリではプロンプト設計と評価基準の見直しを迫る更新である。