コンテンツにスキップ

Claude Sonnet 4.6リリース — Opus級の性能をほぼ半額で実現

対象: AI開発ツールの最新動向を追う中級エンジニア

この記事のポイント

  • Opus 4.6に迫るベンチマーク SWE-bench 79.6%、OSWorld 72.5%で最上位モデルとほぼ同等
  • 価格据え置き3/15 per MTokでSonnet 4.5と同額。Opus 4.6のほぼ半額
  • 1Mコンテキスト対応 Sonnetクラスで初の100万トークン窓(ベータ)

Claude Sonnet 4.6のベンチマーク — Sonnet 4.5から着実に進化

Sonnet 4.6はほぼ全領域でSonnet 4.5を上回り、一部ではOpus 4.6すら超えた。 Claude Codeでの早期テストでは約70%のユーザーがSonnet 4.5よりSonnet 4.6を支持。 Opus 4.5(2025年11月リリース)との比較でも59%がSonnet 4.6を選んでいる。

特に目を引くのはARC-AGI-2だ。 Sonnet 4.5の13.6%から60.4%へと劇的に跳ね上がった。 汎用推論の底力が一段階上がったことを示す。

ベンチマークSonnet 4.6Sonnet 4.5Opus 4.6
SWE-bench Verified79.6%77.2%80.8%
OSWorld-Verified72.5%61.4%72.7%
Terminal-Bench 2.059.1%51.0%65.4%
GPQA Diamond89.9%83.4%91.3%
ARC-AGI-2 (high effort)60.4%13.6%68.8%
Finance Agent (max)63.3%60.1%

Finance Agentベンチマーク(63.3% vs 60.1%)ではOpus 4.6を上回った。 エージェント系タスクでの実力がSonnetクラスの枠を超え始めている。

では、具体的にどの機能が強化されたのか。

コーディング — 過剰設計が減り、長時間安定

最大の改善はコーディング品質の安定性だ。 早期テスト企業からは「過剰エンジニアリングが減った」 「マルチステップの一貫性が上がった」と報告が相次いでいる。

GitHubは大規模コードベースでのバグ修正スケーリングを確認。 Cognitionはバグ検出の改善、ReplitやCursorも長期推論での品質向上を報告している。

従来のSonnetが苦手としていた「長いコーディングセッションでの品質劣化」が軽減され、日常的な開発パートナーとしての信頼性が一段上がった形だ。

コンピュータ操作 — OSWorldでOpusと同等水準に

OSWorld 72.5%はOpus 4.6の72.7%とほぼ同スコアだ。 Sonnet 4.5の61.4%から11ポイント以上のジャンプは、コンピュータ操作が劇的に改善されたことを意味する。

具体的には、複雑なスプレッドシートの操作、複数ブラウザタブをまたぐフォーム入力で人間レベルの精度が出始めている。保険業務のワークフロー自動化では94%の精度を記録した(Paceのテスト結果)。

プロンプトインジェクション攻撃への耐性もOpus 4.6と同等水準に引き上げられた。コスト面でSonnetを選びつつ、セキュリティを妥協しなくてよい。

1Mコンテキスト — Sonnetクラスで初

コンテキストウィンドウが200Kから1M(ベータ)に拡大した。 Sonnetクラスでは初の対応だ。 APIでは context-1m-2025-08-07 ベータヘッダーを指定して利用できる。

コードベース全体や長大な契約書を一度にロードして推論できる。 ビジネスシミュレーション「Vending-Bench Arena」では、 序盤に先行投資→終盤で利益最大化へシフトする長期戦略を自律展開し、 競合AIを圧倒した。

200Kを超えるリクエストにはロングコンテキスト料金が適用される点に注意が必要だ。

Adaptive Thinking — 推論コストの柔軟な制御

Sonnetクラスで初めてAdaptive Thinkingに対応した。 これまではOpus 4.6のみの機能だった。

effortパラメータ(low / medium / high / max)で推論トークンの消費量を制御できる。 簡単なタスクには軽量モード、複雑な分析にはmax effortを割り当てる運用が可能だ。

価格と利用方法

価格はSonnet 4.5と同額。 Opus 4.6(5/25)の約60%のコストだ。

項目Sonnet 4.6Opus 4.6
入力$3 / MTok$5 / MTok
出力$15 / MTok$25 / MTok
コンテキスト200K(1Mベータ)200K(1Mベータ)
最大出力64K tokens128K tokens
知識カットオフ2025年8月2025年5月
訓練データ2026年1月2025年8月

モデルIDは claude-sonnet-4-6。プロンプトキャッシュで最大90%、バッチAPIで50%のコスト削減が可能だ。

利用プラットフォーム:

  • claude.ai — Free/Proプランのデフォルトモデルに
  • Claude Code/model claude-sonnet-4-6 で選択
  • API — 即時利用可能
  • Amazon Bedrock / Google Vertex AI / Microsoft Foundry

まとめ — Opusの領域はどこに残るか

  • SWE-bench 79.6%、OSWorld 72.5%でOpus 4.6に肉薄
  • ARC-AGI-2は13.6%→60.4%と汎用推論が劇的強化
  • 価格据え置き(3/15)で1Mコンテキスト+Adaptive Thinking対応

Sonnet 4.6の台頭で「Opusでなければ解けないタスク」の範囲は急速に狭まっている。 Opus 4.6の価値が残る領域は、大規模リファクタリング、複数エージェントの協調、 絶対に間違えられない判断に集約されつつある。 コスト効率を重視する多くのユースケースでは、Sonnet 4.6がファーストチョイスになるだろう。

関連記事