Claude Managed AgentsにOutcomes追加、rubricベースの自動完了判定でレビュー待ちを削減

5月6日のCode w/ ClaudeでAnthropicが発表したManaged Agentsの拡張のうち、現場運用の観点で最も実利が大きいのが「Outcomes」だ。長期実行Agentの完了判定をrubric（合否基準）と独立グレーダーに委ねる仕組みで、これまで人間レビューが必須だった工程をAgent側で巻き取れるようになった。本稿ではOutcomesが解いた問題と、rubricの書き方の実践Tipsを実機ベースで整理する。

Outcomesが解いた問題は「完了したかどうか分からない」だった
公式が出した数字の読み方には注意がいる
rubricの書き方で精度が大きく変わる
適用すべきタスク・避けたほうがいいタスク
ベータ期間に基準作りを進めておく価値はある
関連記事

Outcomesが解いた問題は「完了したかどうか分からない」だった

長期実行Agentを運用すると、最後にぶつかるのは「このAgentは本当に終わったのか」という判定の難しさだ。従来は「ツール呼び出しが一定時間止まったから多分終わった」のような曖昧な判定に頼るほかなく、結局は人間が出力を覗いて合否を出すルーチンが残っていた。

OutcomesはこのフローをAgent内で完結させる。ユーザがrubricを書き、別のグレーダーがAgentの出力を独立コンテキストで評価する。本体Agentの推論コンテキストに引きずられないので、自己採点バイアスが乗らない構造になっている。

筆者は以前から、手動でLLM-as-a-Judgeを別セッションで走らせる運用を組んでいた。Outcomesはその発想の標準機能化と言える。自前で組むと評価プロンプトの管理やコンテキスト分離の実装に手間がかかっていたが、これが管理画面側で完結するようになった意味は大きい。

公式が出した数字の読み方には注意がいる

Anthropic公式ブログが引用しているHarveyの「タスク完了率6倍」は、Dreamingとセットで出した数字だ。Outcomes単体の効果ではないので、ここは少しだけ割り引いて読む必要がある。

ただ筆者の手元検証では、Outcomes単体でも体感効果はあった。再実行の指示にかかる時間が、おおむね3〜4割短くなった。理由ははっきりしていて、「rubricのこの項目が満たされてない」という具体的な指摘が返ってくるので、追加指示も「ここを修正して」で済むようになるからだ。

特に効果が出やすいのは、Finance・Legalの自動化のような評価基準が明確なドメインだ。逆に評価基準が曖昧なクリエイティブ業務では、rubricを書く負担のほうが重く感じる場面もあった。すべての業務に画一的に適用する機能ではなく、ドメイン適合性で使い分けるべき機能、というのが現時点の所感だ。

rubricの書き方で精度が大きく変わる

実装してみて分かったのは、rubricの書き方次第で評価の質がガラッと変わるという点だ。箇条書きで抽象的に書くと精度が出ない。筆者が試行錯誤して落ち着いたのは、各項目に「失格条件」を併記する形だ。

たとえば「出典が明記されていること」と書くだけでは弱い。「URLが3件以上、各URLに対して引用箇所が示されている。アクセス不可URLは0件」のように、グレーダーが機械的に評価できる粒度まで分解する。この粒度に落とすと、評価結果のブレが目に見えて減る。

最初の2〜3本でrubricの型ができてくると、4本目以降は流用が効くようになる。テンプレ化のコツは、評価項目を「事実関係」「網羅性」「フォーマット」「禁止事項」の4ブロックに分けることだ。この4分割でだいたいのドメインは片付く。このあたりは公式ドキュメントには載っていない、現場のチューニングTipsとして残しておきたい。