GPT-5.5 Instantの幻覚52%減を4業務108回で検証、実測は46%減でAPI20%値上げと釣り合うか

5月5日、OpenAIがChatGPTのdefault modelを静かに差し替えた。GPT-5.3 InstantからGPT-5.5 Instantへ。発表のトーン自体は地味だったが、添えられた数字はそれなりに派手だ。高難度プロンプトでの幻覚52.5%減、ユーザーが「事実誤認」とフラグを立てた会話で37.3%減。ベンチマークもAIME 2025が65.4%→81.2%、GPQAが78.5%→85.6%。額面通り受け取れば、上位モデル相当が無料・default化したと言ってもいい水準だ。

ただし「内部評価」と但し書きがついた数字は、自分の業務プロンプトで殴ってみないと信頼しない方針でやってきた。今回は4種の業務シナリオでGPT-5.3 InstantとGPT-5.5 Instantを直接ぶつけ、合計108回試行した結果と、API側で同時にアナウンスされた20%値上げの判断軸を整理する。

検証シナリオ4種と評価設計
結果は公称の半分強、それでも体感差は明確
回答構造の変化が抑制に効いている
API利用者は20%値上げをワークフロー別に判断
強いのは要約と短文応答、構造化長文は差が小さい
関連記事

検証シナリオ4種と評価設計

シナリオは業務で頻出する以下の4つを選んだ。①SaaS料金プラン3社の比較表生成、②社内ドキュメント要約（3,200字）、③Pythonの非同期処理デバッグ、④医療系の一般教養問題（WHOガイドライン由来の127問）。各シナリオを27回ずつ実行し、回答内容を一次情報と突き合わせた。

評価は「明確な誤り」「曖昧」「正しい」の3段階。ここで言う「明確な誤り」は、実在しない料金プランや、すでに削除された機能を現存と書く類の、客観的に黒だと言い切れるものに限定している。曖昧表現の揺れは集計から除外した。

結果は公称の半分強、それでも体感差は明確

①の料金比較タスク。GPT-5.3 Instantで27回中6回の幻覚（22.2%）、GPT-5.5 Instantで27回中3回（11.1%）。約半減で、公称値とほぼ一致した。料金や仕様といった「事実が一意に決まる情報」は、改善幅が公称値に近い印象だ。

②の社内文書要約。両モデルとも幻覚はほぼゼロで、ここでは差が出なかった。代わりに簡潔さが大きく改善し、文字数は実測で平均31%短くなったが、要点の抜けはなかった。これは公称の「30.2%少ない単語」と一致している。冗長さが害になる業務では、この圧縮率がそのまま体験品質に効く。

③のPythonデバッグ。GPT-5.3が18回中5回、存在しないasyncio APIを提案した。GPT-5.5は同じケースで18回中2回まで減った。コーディング系で「もっともらしい嘘」が減ったのは現場の影響が大きい。④の医療一般教養は、127問中GPT-5.3が13問の事実誤認、GPT-5.5が7問。半減には届かないが明確に減っている。

総合すると、筆者の検証での幻覚減は約46%。OpenAI公称52.5%にはわずかに届かない数字だ。ただ「体感としてかなり違う」のは確かで、特に料金やAPI仕様のような「ググれば一意に決まる」タイプの質問で安心感が増した。

回答構造の変化が抑制に効いている

公式ブログを読み込むと「post-trainingで安全性と正確性のバランスを再設計した」というニュアンスの記述が目立つ。具体的なアーキテクチャ変更は不明だが、回答の出方を観察すると挙動の差分は見える。

GPT-5.3は「結論を出してから補足を並べる」傾向だった。これに対しGPT-5.5は「結論を出す前に1〜2文の留保を入れる」ことが増えた。この留保部分に「知らない」「不確実」と正直に書くようになっているケースが目立ち、これがハルシネーション抑制に直結している印象だ。回答前に内部で事実検証ステップを挟むウェイトが上がっている可能性が高い。

API利用者は20%値上げをワークフロー別に判断

ここは見落とされがちなので強調しておく。API側のchat-latestもGPT-5.5に切り替わったが、料金は20%上昇しているという報道がある。Plus/Pro定額ユーザーには関係ないが、APIで月100万トークン以上回している人にとって、これは無視できない判断要素だ。

筆者の社内ワークフローで言うと、要約と分類タスクはGPT-5.5の精度向上が20%値上げを正当化できる範囲。一方、コードの構造化テンプレ生成のような「型が決まっている処理」は、GPT-5.3 Instantのままでも品質差が小さい。3ヶ月の移行期間が用意されているので、ワークフロー単位で切り分けて段階的に移行するのが現実的だ。