Gemini 3 Flashが2026年5月、Gemini CLIで利用可能になった。注目されているのはSWE-bench Verifiedのスコアで、Flashが78%とGemini 3 Pro本体を上回る数字を公式に出している。「廉価モデルが上位モデルに勝つ」という構図はやや異例で、率直に言えば最初に見たとき気持ち悪さがあった。本稿では公式ベンチマーク値と、筆者がGemini CLIで実機検証した感触を整理する。
公開されているベンチマーク値の整理
Google公式が出している主なスコアは以下の通り。
- SWE-bench Verified: 78%(Gemini 3 Proを上回る)
- GPQA Diamond: 90.4%
- MMMU Pro: 81.2%
- 出力速度: 約162.8トークン/秒(Pro比でおよそ3倍)
- 料金: Proの4分の1以下
数字だけ並べると「もうProを使う理由がないのでは」と思いたくなる。実際、最初に資料を見たときは筆者もそう感じた。だがGemini CLIで触り始めて1日経たないうちに、「コーディングならFlash、設計議論や長文ドキュメント解釈ならPro」という棲み分けの感触が立ち上がってきた。ベンチマーク上の優位と、実運用での優位は別物だ、ということを改めて確認することになった。
Gemini CLIでの実測:型エラー解消タスク
筆者のCLI用途は、ローカルディレクトリ配下のリファクタやMarkdownノートの整理など、短くて反復が多いタスクが中心だ。こうした用途は出力が速いほど開発リズムが乱れないので、Flashの速度が効きやすい領域と言える。
具体的に試したのは、約2,300行のTypeScriptプロジェクトに対する型エラー解消タスク。同じプロンプト・同じコンテキストで両モデルを叩いた結果は以下の通り。
- Gemini 3 Pro: 1リクエストあたり平均14.2秒
- Gemini 3 Flash: 1リクエストあたり平均4.7秒
ちょうど3.0倍の差が出た。1日100回程度叩く想定で計算すると、純粋な待ち時間だけで約16分の差になる。1回ずつは数秒の差でも、累積で見るとじわじわ効いてくる種類の差だ。
Flashが落ちる場面:設計判断と曖昧な指示
一方で、Flashが明確に劣る場面もある。「このリファクタリングの設計判断は妥当か」のような問いを投げると、Flashは早口で答えを返してくるが、論点の取り溢しが目立つ。Proは2倍以上時間をかけるが、選択肢を整理して提示してくる。
体感としては、Vim時代に「ggとGの違いを知っているか」みたいなレベルで両者の使い分けが分かれている。コーディングタスクで数値的に勝っていることと、「曖昧な要件の解釈」で勝てるかは別、というのが筆者の実機での印象だ。
CLI運用で気をつけたい3つのポイント
実機で運用して引っかかった点を3つ挙げておく。
1つ目、デフォルトモデル指定。 Gemini CLIは設定ファイルでdefault_model: gemini-3-flashを明示しておかないと、シーンによってProにフォールバックする。意図と違うコストがかかる場合があるので、明示推奨。
2つ目、コンテキスト長。 Flashは速度に振っているぶん、長コンテキストでの性能劣化がProよりやや早い。筆者の手元では8万トークンを超えると応答品質が下がる感触があった。実用上は4〜6万トークンに抑える運用が現実的だった。
3つ目、ツール呼び出しの傾向。 Flashはツール選択が「気持ち急ぎ気味」になる。たとえば検索→読込み→編集の流れを期待しても、検索を飛ばして直接編集に行くことがある。プロンプト側で明示的に「まず検索」と書くと改善する。
マルチモーダル用途では実利が大きい
コーディング以外でFlashの強みが出たのが、マルチモーダル系のタスクだ。MMMU Proで81.2%という数字は伊達ではなく、画像つきPRレビューを試した範囲では、Proとほぼ同等の指摘精度だった。
具体的には、スクリーンショットからCSSの不具合を読み取らせるタスクで、Proが提案した修正候補5件のうち4件をFlashも独立に発見していた。3倍速くて4/5を取れるなら、実用上は十分という評価になる。マルチモーダルの理解は推論速度と独立に効いている、という読み取り方ができそうだ。コードベンチで上振れている理由とは別系統の改善が入っている、と推測できる。
コスト効率の差はチーム規模で効く
待ち時間が4秒→1.3秒に縮まっても、人間の体感では「速い」から「速い」に変わるだけで、閾値を越えていないという見方もできる。個人利用ではFlashの3倍速がそこまで革命的に感じない、というのが正直なところだ。
ただ、コスト効率の差はインパクトが大きい。月100時間CLIを叩くチームだと、ProからFlashへの移行で月額数十ドル単位で変わってくる。チーム規模が大きいほど効く構造で、ここがFlashの本当の意味での実利と言える。
チーム運用での落としどころ
筆者のチームでは1週間、以下の運用で回した。
- デフォルトはGemini 3 Flash
- 設計議論・長文ドキュメント解釈のときだけ手動でGemini 3 Proに切り替え
- 速度勝負のコード補完・短いリファクタはFlashのまま
この運用で生産性は明確に上がった、という感触になった。Googleが公式に出している「FlashがProを抜いた」というメッセージは、SWE-bench Verifiedに限定すれば確かにその通りで、誇張ではない。あとは自分のユースケースが、Flashの強みと噛み合うかどうかの判断になる。コーディング比率が高いチームほど、Flashへの移行価値は素直に大きい、という結論で良さそうだ。

