Anthropic が2026年4月にベータ提供を始めた「Advisor Tool」を、本番に近いエージェント環境で2週間ほど運用してみた。仕組みはシンプルで、Haiku にタスクを走らせ、Haiku 自身が「これは厳しい」と判断した瞬間だけ Opus に助言を求める形になる。料金とスコアの折り合いが、これまでの「全部 Opus」「全部 Haiku」とは別の地点に落ち着いた感触があったため、本稿で動作と数値、運用上の落とし穴を整理しておく。
Advisor Tool の仕組みは、想像と少しずれる
「上位モデルを呼ぶ」と聞いたとき、普通は2つの方法を思い浮かべる。最初から Opus で殴るか、ルーター層で振り分けるか。Advisor Tool はどちらでもない。Haiku に走らせ、Haiku 自身が必要と判断した瞬間だけ Opus に助言を求める。呼び出すかどうかをエージェント側が決める、ここが効く。
サーバー側で stop_reason=advisor_call が返ると、Anthropic 内部で Opus に渡り、Opus の応答がツール結果として Haiku に戻ってくる。クライアント側に二重ループを書かなくていい。実装の見た目はただの tool 使用で、ベータヘッダ advisor-tool-2026-03-01 を足すだけ。これが想像以上に運用負担を下げる。
外側からのモデル切替ではないので、会話の文脈もそのまま引き継がれる。ステートのコピー忘れや、トークンの無駄食いの心配が減る、というのも地味に効いてくる利点だ。
公式数値と筆者の実測値の対応
公式が出している数値が一番分かりやすい。SWE-bench Multilingual で Sonnet 単体が 72.1%、Sonnet + Opus 相談役で 74.8%。費用は Opus 単独より 11.9% 安い。Haiku はもっと派手で、BrowseComp のスコアが 19.7% → 41.2% にジャンプし、コストは Sonnet 単独より 85% 低い、と発表されている。
筆者が試したのは、Haiku 4.5 を司令塔にしたバグ調査エージェント。113件分のスタックトレースを分類するタスクで、Haiku 単体だと正答率が約 62%。Advisor Tool 有効化で 78% に上がった。総トークンに対して Opus が呼ばれたのは全体の 8%。コストは1日あたり 0.34 から 0.41 に増えた程度。3円弱の追加で 16 ポイント上がる計算になる。
ここで面白いのは、Opus が呼ばれる箇所が「人間が悩む箇所」とかなり一致したこと。例外の型が複数想定できるトレース、フレームワーク内部に潜って原因が読みづらいパターン、外部 API のエラーがアプリ側のバグに似ているケース。ログを見返していて、相談ポイントの選び方そのものに学びがあった。
相談を呼びすぎると Haiku の存在意義が消える
やってみて分かったのは、相談を呼びすぎると Haiku を使う意味がなくなることだ。試作中は Opus 呼び出し率が 30% 近くまで跳ね上がり、コストが Sonnet 単体より高くなった日があった。これはまずい。
対策は2つあった。1つ目はシステムプロンプトに「相談を呼ぶ条件」を明文化すること。「コードの意図が複数解釈できるとき」「テスト失敗の原因が一段階の解析で分からないとき」など、トリガを文章で固めておくと暴発が減る。
2つ目は呼び出し上限の自前ガード。Anthropic 公式は明示的な制限を提示していないが、ラッパーで「1セッションあたり 3回まで」と縛るだけで、暴走が止まる。これは Vim 時代のプラグイン文化と構造が似ていて、何でも入れると逆に重くなる。引き算の設計が必要になる場面で、Advisor Tool も例外ではない。
「Sonnet + Opus 相談役」と「Opus 単独」は同じ土俵にいない
正直なところ、筆者は Sonnet を使う場面では Advisor Tool よりも素の Opus 単独を選びたい。理由はレイテンシだ。Sonnet → Opus 相談の往復で 2 秒前後の沈黙が入り、対話型 UI だと体感がもたつく。
一方、Haiku だと話が変わる。Haiku 4.5 は単体だと心もとない領域があり、複雑な計画立案や、長い因果関係の追跡が代表例。そこを補ってくれる Advisor Tool は、構成として自然に収まる。CI 上で動くスクリプト的なタスク、Slack ボットのトリアージ、ログ要約あたりとの相性が良い。「全部 Opus で殴る」のと「全部 Haiku に任せる」のあいだに、第三の選択肢が用意された、というのが今回の意味合いだと思う。
Bedrock 未対応の現状は、地味だが効いてくる
注意点が1つある。Advisor Tool は現時点で Amazon Bedrock、Vertex AI、Microsoft Foundry のいずれにも来ていない。Claude Platform 本体、および AWS 上の Claude Platform のみ対応している。
多くの企業が Bedrock 経由で運用している現状、この差は設計判断にじわじわ効く。ベータ機能なので、いずれ Bedrock に降りてくる可能性は高い。だが Anthropic の過去パターンを見ると、最低 3〜4 ヶ月のラグはある。導入を検討する場合は、API 直接利用へ切り替えるコスト、もしくは Bedrock 対応を待つか、判断軸を先に決めておくと迷わない。
筆者個人としては、Advisor Tool は「あるとちょっと楽になる」程度の話ではなく、料金構造そのものを動かす機能だと感じている。少なくとも今期の AI インフラ予算策定では、織り込む価値があるアップデートだ。Haiku にとっては「頭のいい先輩」がそばにいる状態、Sonnet にとっては「過剰品質を避けるブレーキ」がついた状態、と言い換えてもいい。料金カードと品質カードを別々に切れるようになった、と表現する方が正確かもしれない。

