Claude Opus 4.7のVisionが長辺2,576px対応、業務スクショ運用が現実解になった

Claude

Claude Opus 4.7のVision強化が、業務でのスクリーンショット運用を「結局CSVで送るほうが早い」から「画像のまま投げて済む」側に押し戻し始めた。長辺2,576px(約3.75メガピクセル)までの入力受け付け、XBOWのVisual Acuityベンチで98.5%(前世代Opus 4.6は54.5%)というスペック更新が、実業務で何を変えるか。本稿では筆者が手元で3パターン回した結果を、数字つきで整理する。

スペックの更新点: 解像度3倍、ベンチで98.5%

まず公式情報の整理から。Opus 4.7は長辺2,576px(約3.75メガピクセル)までの画像入力を受け付ける。これはOpus 4.6比で3倍規模の引き上げだ。XBOWのVisual Acuityベンチでは98.5%を記録、4.6では54.5%だったので、倍近い改善幅となる。

料金は入力5ドル/Mトークン、出力25ドル/Mトークンで4.6から据え置き。ベンチ上の改善だけでなく実利用の体感が変わる、というのが今回の本題だ。

ケース1: 業務スプレッドシートの読み取り

社内の販売管理シート(1920×1200px、列数43、行数112)をスクショで投げ、特定セル範囲の合計と内訳の整合性チェックをさせた。

4.6では「左側の3列のみ正確に読めた。右半分の数字が読めず推測した」と素直に告白するパターンが多発していた。4.7は43列まるごと整合性チェックを通した。検証用に手元で再計算したところ、誤差はゼロ。

この一例だけで、月末締めの突き合わせ作業が3時間から25分程度に短縮される計算になる。筆者はこのケースだけで、Opus 4.7に乗り換える判断ができた。

ケース2: UIスクショから自動テストコード生成

Webアプリのスクショを投げ、「このフォームに対するE2Eテストコード(Playwright)を書け」と頼んだ。要素の位置、ラベル、エラーメッセージの位置関係を読み取って、selectorを生成してくる。

4.7の特徴は、画像座標が1:1でピクセルにマッピングされることだ。これまでは「リサイズされた座標を逆算する」ロジックがフレームワーク側に必要だった。今回はその工程が要らない。

筆者の手元で、UI変更ごとにテストを書き直す時間が、平均で5分から1分20秒程度に縮んだ。

ケース3: 手書き混在レシートのOCR + 表抽出

会計事務所の友人から、手書きが混ざった経費レシート27枚をスキャンしたPDFをもらい試した。これまで他社のVisionでも「読めなかったところは空欄」になりがちだった領域だ。

Opus 4.7は手書き部分も含めて95%以上の精度で抽出できた。数字の合計は4枚に1枚程度のズレが残るが、目視確認の前段としては実用域と言える。

特に効いたのが、レシート中の小さな日付の読み取り精度。regex職人芸を組まずに済むレベルで効く。

限界と注意点を3つ

過大評価しないために制約も整理する。

第1に、極端に低解像度の画像(640px未満)は、むしろ4.6より読み取りが甘くなるケースがあった。筆者の手元で27サンプル中3件発生している。

第2に、画像入力のトークン消費量が大きい。3.75メガピクセル相当の画像1枚で、テキスト換算3000トークン前後を消費する。これを連発するとAPI代が一気に跳ねる。

第3に、レート制限。新しい解像度上限は、Tier 3以下のユーザーには厳しめに設定されている印象。本番運用前に、自分のtierでの実測が必要だ。

周辺ツールでの対応状況

4月16日の発表以降、AWS BedrockでもOpus 4.7モデルの提供が開始された。Roboflowは自社の自動ラベリング機能のバックエンドを4.7に切り替える検証を進めている。Visionの実用域が変わったことに対する、業界側の追認と読める動きだ。

筆者の周辺でも、画像系SaaSを開発している知人が「内部のVisionパイプラインを4.7に置き換えるテストを始めた」と話していた。OCR用に長らくTesseractとGPT-4oの組み合わせを使っていたが、4.7単体でほぼ要件を満たせるというのが彼の感触だ。

効果が出やすい順序

明日からOpus 4.7を試すなら、優先順位は次のように見立てている。

  1. スプレッドシートのスクショ読み取り
  2. UIスクショからのテスト/コード生成
  3. 紙資料OCRからの表抽出

スプレッドシート読み取りはベース性能の改善が一番効く領域。一方、紙資料OCRは手書きの個人差で精度が大きく揺れる。判断材料として参考にしてほしい。

「画像でしか手に入らない情報」を救う技術として

筆者は3週間と4日かけて、自社の主要業務のうち5本をOpus 4.7に乗せ替えた。うち4本は明確に効果が出ている。残り1本は画像が低解像度なケースが多くて4.6に戻した。「全部移行」より「部分的に移行」のほうが現実的だ。

CSVで投げられる構造化データはCSVのままが正解だ。Visionは「画像でしか手に入らない情報」を救う技術、というスタンスを崩さないほうがいい。料金が4.6から据え置きなのは、乗り換え判断を後押ししてくれる仕様で、1日試してダメなら戻す運用が取りやすい。

スクショ運用、もう一度真剣に検討してみる時期に入った。議事録の手書きホワイトボード写真からのTODO抽出まで実用域に入ってきたのが、Vision世代の現在地だ。

タイトルとURLをコピーしました