Claude Sonnet 4.6リリース — Opus級の性能をほぼ半額で実現¶
対象: AI開発ツールの最新動向を追う中級エンジニア
この記事のポイント¶
- Opus 4.6に迫るベンチマーク SWE-bench 79.6%、OSWorld 72.5%で最上位モデルとほぼ同等
- 価格据え置き3/15 per MTokでSonnet 4.5と同額。Opus 4.6のほぼ半額
- 1Mコンテキスト対応 Sonnetクラスで初の100万トークン窓(ベータ)
Claude Sonnet 4.6のベンチマーク — Sonnet 4.5から着実に進化¶
Sonnet 4.6はほぼ全領域でSonnet 4.5を上回り、一部ではOpus 4.6すら超えた。 Claude Codeでの早期テストでは約70%のユーザーがSonnet 4.5よりSonnet 4.6を支持。 Opus 4.5(2025年11月リリース)との比較でも59%がSonnet 4.6を選んでいる。
特に目を引くのはARC-AGI-2だ。 Sonnet 4.5の13.6%から60.4%へと劇的に跳ね上がった。 汎用推論の底力が一段階上がったことを示す。
| ベンチマーク | Sonnet 4.6 | Sonnet 4.5 | Opus 4.6 |
|---|---|---|---|
| SWE-bench Verified | 79.6% | 77.2% | 80.8% |
| OSWorld-Verified | 72.5% | 61.4% | 72.7% |
| Terminal-Bench 2.0 | 59.1% | 51.0% | 65.4% |
| GPQA Diamond | 89.9% | 83.4% | 91.3% |
| ARC-AGI-2 (high effort) | 60.4% | 13.6% | 68.8% |
| Finance Agent (max) | 63.3% | — | 60.1% |
Finance Agentベンチマーク(63.3% vs 60.1%)ではOpus 4.6を上回った。 エージェント系タスクでの実力がSonnetクラスの枠を超え始めている。
では、具体的にどの機能が強化されたのか。
コーディング — 過剰設計が減り、長時間安定¶
最大の改善はコーディング品質の安定性だ。 早期テスト企業からは「過剰エンジニアリングが減った」 「マルチステップの一貫性が上がった」と報告が相次いでいる。
GitHubは大規模コードベースでのバグ修正スケーリングを確認。 Cognitionはバグ検出の改善、ReplitやCursorも長期推論での品質向上を報告している。
従来のSonnetが苦手としていた「長いコーディングセッションでの品質劣化」が軽減され、日常的な開発パートナーとしての信頼性が一段上がった形だ。
コンピュータ操作 — OSWorldでOpusと同等水準に¶
OSWorld 72.5%はOpus 4.6の72.7%とほぼ同スコアだ。 Sonnet 4.5の61.4%から11ポイント以上のジャンプは、コンピュータ操作が劇的に改善されたことを意味する。
具体的には、複雑なスプレッドシートの操作、複数ブラウザタブをまたぐフォーム入力で人間レベルの精度が出始めている。保険業務のワークフロー自動化では94%の精度を記録した(Paceのテスト結果)。
プロンプトインジェクション攻撃への耐性もOpus 4.6と同等水準に引き上げられた。コスト面でSonnetを選びつつ、セキュリティを妥協しなくてよい。
1Mコンテキスト — Sonnetクラスで初¶
コンテキストウィンドウが200Kから1M(ベータ)に拡大した。 Sonnetクラスでは初の対応だ。 APIでは context-1m-2025-08-07 ベータヘッダーを指定して利用できる。
コードベース全体や長大な契約書を一度にロードして推論できる。 ビジネスシミュレーション「Vending-Bench Arena」では、 序盤に先行投資→終盤で利益最大化へシフトする長期戦略を自律展開し、 競合AIを圧倒した。
200Kを超えるリクエストにはロングコンテキスト料金が適用される点に注意が必要だ。
Adaptive Thinking — 推論コストの柔軟な制御¶
Sonnetクラスで初めてAdaptive Thinkingに対応した。 これまではOpus 4.6のみの機能だった。
effortパラメータ(low / medium / high / max)で推論トークンの消費量を制御できる。 簡単なタスクには軽量モード、複雑な分析にはmax effortを割り当てる運用が可能だ。
価格と利用方法¶
価格はSonnet 4.5と同額。 Opus 4.6(5/25)の約60%のコストだ。
| 項目 | Sonnet 4.6 | Opus 4.6 |
|---|---|---|
| 入力 | $3 / MTok | $5 / MTok |
| 出力 | $15 / MTok | $25 / MTok |
| コンテキスト | 200K(1Mベータ) | 200K(1Mベータ) |
| 最大出力 | 64K tokens | 128K tokens |
| 知識カットオフ | 2025年8月 | 2025年5月 |
| 訓練データ | 2026年1月 | 2025年8月 |
モデルIDは claude-sonnet-4-6。プロンプトキャッシュで最大90%、バッチAPIで50%のコスト削減が可能だ。
利用プラットフォーム:
- claude.ai — Free/Proプランのデフォルトモデルに
- Claude Code —
/model claude-sonnet-4-6で選択 - API — 即時利用可能
- Amazon Bedrock / Google Vertex AI / Microsoft Foundry
まとめ — Opusの領域はどこに残るか¶
- SWE-bench 79.6%、OSWorld 72.5%でOpus 4.6に肉薄
- ARC-AGI-2は13.6%→60.4%と汎用推論が劇的強化
- 価格据え置き(3/15)で1Mコンテキスト+Adaptive Thinking対応
Sonnet 4.6の台頭で「Opusでなければ解けないタスク」の範囲は急速に狭まっている。 Opus 4.6の価値が残る領域は、大規模リファクタリング、複数エージェントの協調、 絶対に間違えられない判断に集約されつつある。 コスト効率を重視する多くのユースケースでは、Sonnet 4.6がファーストチョイスになるだろう。