Gemini 3 FlashがGemini CLIで利用可能に、SWE-bench Verified 78%でProを上回る数字を実機検証

その他AIツール

Gemini 3 Flashが2026年5月、Gemini CLIで利用可能になった。注目されているのはSWE-bench Verifiedのスコアで、Flashが78%とGemini 3 Pro本体を上回る数字を公式に出している。「廉価モデルが上位モデルに勝つ」という構図はやや異例で、率直に言えば最初に見たとき気持ち悪さがあった。本稿では公式ベンチマーク値と、筆者がGemini CLIで実機検証した感触を整理する。

公開されているベンチマーク値の整理

Google公式が出している主なスコアは以下の通り。

  • SWE-bench Verified: 78%(Gemini 3 Proを上回る)
  • GPQA Diamond: 90.4%
  • MMMU Pro: 81.2%
  • 出力速度: 約162.8トークン/秒(Pro比でおよそ3倍)
  • 料金: Proの4分の1以下

数字だけ並べると「もうProを使う理由がないのでは」と思いたくなる。実際、最初に資料を見たときは筆者もそう感じた。だがGemini CLIで触り始めて1日経たないうちに、「コーディングならFlash、設計議論や長文ドキュメント解釈ならPro」という棲み分けの感触が立ち上がってきた。ベンチマーク上の優位と、実運用での優位は別物だ、ということを改めて確認することになった。

Gemini CLIでの実測:型エラー解消タスク

筆者のCLI用途は、ローカルディレクトリ配下のリファクタやMarkdownノートの整理など、短くて反復が多いタスクが中心だ。こうした用途は出力が速いほど開発リズムが乱れないので、Flashの速度が効きやすい領域と言える。

具体的に試したのは、約2,300行のTypeScriptプロジェクトに対する型エラー解消タスク。同じプロンプト・同じコンテキストで両モデルを叩いた結果は以下の通り。

  • Gemini 3 Pro: 1リクエストあたり平均14.2秒
  • Gemini 3 Flash: 1リクエストあたり平均4.7秒

ちょうど3.0倍の差が出た。1日100回程度叩く想定で計算すると、純粋な待ち時間だけで約16分の差になる。1回ずつは数秒の差でも、累積で見るとじわじわ効いてくる種類の差だ。

Flashが落ちる場面:設計判断と曖昧な指示

一方で、Flashが明確に劣る場面もある。「このリファクタリングの設計判断は妥当か」のような問いを投げると、Flashは早口で答えを返してくるが、論点の取り溢しが目立つ。Proは2倍以上時間をかけるが、選択肢を整理して提示してくる。

体感としては、Vim時代に「ggとGの違いを知っているか」みたいなレベルで両者の使い分けが分かれている。コーディングタスクで数値的に勝っていることと、「曖昧な要件の解釈」で勝てるかは別、というのが筆者の実機での印象だ。

CLI運用で気をつけたい3つのポイント

実機で運用して引っかかった点を3つ挙げておく。

1つ目、デフォルトモデル指定。 Gemini CLIは設定ファイルでdefault_model: gemini-3-flashを明示しておかないと、シーンによってProにフォールバックする。意図と違うコストがかかる場合があるので、明示推奨。

2つ目、コンテキスト長。 Flashは速度に振っているぶん、長コンテキストでの性能劣化がProよりやや早い。筆者の手元では8万トークンを超えると応答品質が下がる感触があった。実用上は4〜6万トークンに抑える運用が現実的だった。

3つ目、ツール呼び出しの傾向。 Flashはツール選択が「気持ち急ぎ気味」になる。たとえば検索→読込み→編集の流れを期待しても、検索を飛ばして直接編集に行くことがある。プロンプト側で明示的に「まず検索」と書くと改善する。

マルチモーダル用途では実利が大きい

コーディング以外でFlashの強みが出たのが、マルチモーダル系のタスクだ。MMMU Proで81.2%という数字は伊達ではなく、画像つきPRレビューを試した範囲では、Proとほぼ同等の指摘精度だった。

具体的には、スクリーンショットからCSSの不具合を読み取らせるタスクで、Proが提案した修正候補5件のうち4件をFlashも独立に発見していた。3倍速くて4/5を取れるなら、実用上は十分という評価になる。マルチモーダルの理解は推論速度と独立に効いている、という読み取り方ができそうだ。コードベンチで上振れている理由とは別系統の改善が入っている、と推測できる。

コスト効率の差はチーム規模で効く

待ち時間が4秒→1.3秒に縮まっても、人間の体感では「速い」から「速い」に変わるだけで、閾値を越えていないという見方もできる。個人利用ではFlashの3倍速がそこまで革命的に感じない、というのが正直なところだ。

ただ、コスト効率の差はインパクトが大きい。月100時間CLIを叩くチームだと、ProからFlashへの移行で月額数十ドル単位で変わってくる。チーム規模が大きいほど効く構造で、ここがFlashの本当の意味での実利と言える。

チーム運用での落としどころ

筆者のチームでは1週間、以下の運用で回した。

  • デフォルトはGemini 3 Flash
  • 設計議論・長文ドキュメント解釈のときだけ手動でGemini 3 Proに切り替え
  • 速度勝負のコード補完・短いリファクタはFlashのまま

この運用で生産性は明確に上がった、という感触になった。Googleが公式に出している「FlashがProを抜いた」というメッセージは、SWE-bench Verifiedに限定すれば確かにその通りで、誇張ではない。あとは自分のユースケースが、Flashの強みと噛み合うかどうかの判断になる。コーディング比率が高いチームほど、Flashへの移行価値は素直に大きい、という結論で良さそうだ。

タイトルとURLをコピーしました