コンテンツにスキップ

Codex CLI 完全ガイド

LLMのコーディング能力を客観的ベンチマークで比較する方法【2026年3月版】

この記事で学べること

2026年3月時点で実務に使えるコーディングベンチマーク4種の読み解き方 モデル単体とエージェント実装(scaffold)の違いによるスコア変動の理解 用途別(バグ修正/CLI自走/UI実装)のモデル選定フレームワーク

「Claude / GPT / Gemini、どれがコーディング最強なのか?」は、2026年に入ってさらに答えづらくなりました。理由はシンプルで、モデルだけでなくエージェント実装で結果が変わること、ベンチマークがタスク別に分裂して順位が入れ替わること、そして価格・コンテキスト・利用面を含めた総合最適が必要になったからです。

本記事では、2026年3月時点で実務者が比較に使う価値が高い4つの指標と、読み解きのコツ、そして用途別の意思決定の型をまとめます。

まず押さえる:モデル名の整理

2026年2月以降、主要3社のフラッグシップが出揃い、比較対象が増えました。

OpenAI: GPT-5.2がAPIフラッグシップ。コーディング特化のGPT-5.3-Codexが2026年2月5日リリースされ、Codex CLI/Web向けの最新モデルとして提供中です。ChatGPT認証ユーザーにはgpt-5.2-codex、Pro契約者にはgpt-5.3-codex-sparkがデフォルト割り当てされます。

Anthropic: Claude Opus 4.6Claude Sonnet 4.6が2026年2月リリース。Opus 4.6はSWE-bench Verified 80.8%、Sonnet 4.6は79.6%と、中位モデルでもトップ層に迫るスコアを記録しています。

Google: Gemini 3 Proが安定上位。Gemini 3.1 Pro PreviewがTerminal-Bench Hard部門で暫定首位を記録。

ベンチマーク表を作成するときは、どの面(ChatGPT/Codex、API、IDE拡張)で使うモデルかを明記しておくのがコツです。

2026年の比較は「4本立て」が実務的

SWE-bench Verified(レポジトリ課題解決)

実務の「テストを通す修正」「複数ファイルの変更」「依存関係の把握」に近い指標です。ただし、ベンチの汚染(学習データ混入)やエージェントの実装差(ツールの使い方・探索戦略・リトライ等)で結果が揺れます。バックエンド/ライブラリ修正、バグ修正、CIがある開発に向いています。

SWE-bench Pro(より厳しい・新しい実務寄り)

SWE-benchの次世代枠で、汚染耐性が高いと言われ、難度も高めです。ここが重要で、同じSWE-bench Proでもどのscaffoldで回したかで数値が大きく変わるため、数字を見るときは評価条件(scaffold/制限/ツール)が必須です。長期運用する評価軸として、特に「今の勝ち」より「半年後も通用する測り方」を作りたいときに使いどころがあります。

Terminal-Bench 2.0(ターミナル作業エージェント)

「コマンド実行→出力解釈→次のアクション」のループを測るため、CLI/IDEでの自走系に向きます。2026年初頭〜2月にかけて、GPT-5.3-Codex搭載のCodex CLIが総合トップ、Droid + Claude Opus 4.6が2位に入り、CLI/エージェント適性が可視化されています。DevOps / SRE / セキュリティ / データ処理 / ローカル作業の自動化に使いどころがあります。

WebDev Arena(UI/フロントの見た目と体験)

Elo形式の対戦評価(人間の好みも反映される)で、UI実装やプロトタイピングに相性が良いです。「機能は動くけどUIが微妙」問題にはこの指標が刺さりやすく、UI/UX重視のプロダクト実装、vibe coding、デザイン指向のフロント実装に向いています。

2026年2〜3月時点:公開リーダーボードのスナップショット

注意

いずれも評価条件(scaffold/ツール/制限)に依存します。数字は絶対値ではなく、同一条件での相対比較の材料として扱ってください。

SWE-bench Verified(2026年2月更新)

実務のバグ修正・PR作成に最も近い指標。上位は1%以内の僅差で、事実上の横並びです。

順位ModelResolve Rate
1Claude Opus 4.580.9%
2Claude Opus 4.680.8%
3MiniMax M2.5 (229B)80.2%
4GPT-5.280.0%
5Claude Sonnet 4.679.6%
6GLM-5 (Zhipu AI)77.8%
7Claude Sonnet 4.577.2%
8Kimi K2.5 (Moonshot)76.8%
9Gemini 3 Pro76.2%

注目点:Sonnet 4.6(中位モデル・Opus比⅕価格)が79.6%でOpus 4.6に1.2pt差まで迫っています。中国系ラボ(GLM-5・Kimi・MiniMax)がトップ10中3枠を占めるのも2026年の特徴です。

SWE-bench Pro(Scale SEAL公開データセット、2026年2月更新)

より難度が高く汚染耐性のある次世代ベンチ。scaffoldの差がスコアに大きく影響します。

Agent / ModelResolve Rate備考
Claude Opus 4.5 + WarpGrep v257.5%カスタムscaffold
GPT-5.3-Codex56.8%Codex CLI scaffold
GPT-5.2-Codex56.4%Codex CLI scaffold
Claude Opus 4.5(SEAL標準)45.9±3.6%標準scaffold
Gemini 3 Pro Preview(SEAL標準)43.3±3.6%標準scaffold

注目点:同じOpus 4.5でもscaffold次第で45.9%→57.5%と12pt変動します。数字だけの比較は危険です。

Terminal-Bench 2.0(2026年2月更新)

CLIエージェントの自走能力を測る指標。GPT-5.3-Codexが大幅にリードしています。

順位Agent / ModelAccuracy
1Codex CLI + GPT-5.3-Codex77.3%
2Droid + Claude Opus 4.669.9%
3Claude Opus 4.6(単体)65.4%
4Gemini 3 Pro54.2%
5Claude Sonnet 4.548.0%

Terminal-Bench Hard(最難関サブセット)では順位が変わります:

ModelAccuracy
Gemini 3.1 Pro Preview53.8%
GPT-5.3-Codex (xhigh)53.0%
Claude Sonnet 4.6 (Adaptive, Max Effort)53.0%

注目点:総合ではGPT-5.3-Codexが圧倒的ですが、Hard部門ではGemini 3.1 Pro Previewが僅差でリード。難度の高いタスクほどモデル間の差が縮まる傾向があります。

WebDev Arena(Elo、2026年2月24日更新・171,212票)

人間のUI評価に基づくEloスコア。Claude Opus 4.5(thinking)が首位を維持。

順位ModelElo
1claude-opus-4-5-thinking~1510
2gemini-3-pro1487
3grok-4.1-thinking1482
4gpt-5.2-high1477
5GLM-4.7 (Zhipu/Z.ai)1447
6gemini-3-flash-thinking1416

注目点:Gemini 3 Proが2位に浮上し、GPT-5.2 Highを逆転。Grok-4.1-thinkingが3位に食い込む展開です。

ベンチマークを読むときの落とし穴チェック

落とし穴1:モデル単体の性能だと思い込む

Terminal-BenchやSWE-bench系は、エージェント実装(scaffold)がスコアを左右します。どのIDE/CLI(Codex CLI / Claude Code / Cursor / 自作)で回したかを区別して比較してください。

落とし穴2:コンテキストと出力上限を無視する

大規模リポジトリ、長いログ、長時間の反復はコンテキスト制約で破綻します。モデルによって「入力」「最大出力」「思考トークン」の挙動が違うため、同じプロンプトでも結果が変わります。

落とし穴3:価格比較の前提を固定しない

入力100万トークンだけ見ても実務コストは見えません。エージェント運用では出力・思考が増えるので、入力:出力比率を置いて評価しましょう。

2026年3月版:用途別の選び方テンプレ

バグ修正・PR作成(テストが通ることが最重要)

まずはSWE-bench Verified/Proを主指標にします。実運用では「テスト実行」「ローカル再現」「差分最小化」まで含めて評価することが重要です。

CLI/ターミナル作業(コマンド操作を含む自走)

Terminal-Bench 2.0を主指標にします。モデルとエージェントをセットで選ぶことがポイントで、例としてCodex CLI / Claude Code / 自作などがあります。

UI実装(見た目・体験・実装速度)

WebDev Arena(Elo)を主指標にします。その上で、既存デザインシステム適合・リファクタ耐性は別途スモークテストが必要です。

巨大コンテキストが必要(仕様書・ログ・モノレポ)

1M級コンテキストのモデルを候補に入れます。ただし「入力が長い=強い」ではなく、要約/圧縮(compaction)や検索/索引の設計も同時に行うことが重要です。

コスト比較(API)を壊れにくくやるサンプル

以下は「月間の想定トークン(入力/出力比率つき)」から概算する例です。必ず価格表の更新と比率の見直しがしやすい形にしておくのが実務のコツです。

// Prices are per 1M tokens (USD). Keep these in one place and update periodically.
const PRICES = {
  "openai:gpt-5.2": { input: 1.75, output: 14.0 },
  "anthropic:claude-opus-4.6": { input: 5.0, output: 25.0 },
  "anthropic:claude-sonnet-4.6": { input: 1.0, output: 5.0 },
  // Gemini 3 Pro: tiered pricing by prompt length
  "google:gemini-3-pro(<=200k)": { input: 2.0, output: 12.0 },
  "google:gemini-3-pro(>200k)": { input: 4.0, output: 18.0 },
};

function estimateMonthlyCostUSD({ model, inputTokens, outputTokens }) {
  const p = PRICES[model];
  if (!p) throw new Error(`Unknown model: ${model}`);
  const inM = inputTokens / 1_000_000;
  const outM = outputTokens / 1_000_000;
  return inM * p.input + outM * p.output;
}

// Example: 10M input, 3M output per month
const scenario = { inputTokens: 10_000_000, outputTokens: 3_000_000 };
for (const model of Object.keys(PRICES)) {
  const cost = estimateMonthlyCostUSD({ model, ...scenario });
  console.log(model, cost.toFixed(2));
}

Codexのクレジット課金について

CodexのUI/CLIでChatGPTログイン(クレジット課金)の場合、上の「トークン単価」ではなく、メッセージあたり平均クレジットが提示されることがあります。APIキーで使う場合は、APIのトークン課金(OpenAIの料金表)に寄ります。

おすすめの運用(ベンチ→現場の橋渡し)

  1. 目的を固定する(PR作成 / UI実装 / CLI自走 / 仕様理解)
  2. 目的に合う主ベンチを1つ決める(SWE / Terminal / WebDev)
  3. 2週間だけ「同一条件」でスモークテスト(同じレポ、同じ制約、同じプロンプト)
  4. そこで初めて、価格・速度・運用負荷(権限/セキュリティ/監査)を加味して決める

ベンチマークは入口で、最後は「あなたのレポジトリ」「あなたの開発制約」「あなたのCI」に寄せた評価が勝ちます。

Codex CLI vs Claude Code との組み合わせ

2つのツールを併用する場合、本記事で紹介した各ベンチマークの結果が参考になります。特に:

  • 正確性重視(SWE-bench Verified/Pro で高スコア)が必要な局面 → Codex CLI を選ぶ
  • 速度・インタラクティブ開発(Terminal-Bench / WebDev Arena で評価される)が必要な局面 → Claude Code を選ぶ

詳細な比較は、「Codex CLI vs Claude Code:正確性と速度、どちらを選ぶべきか」をご参照ください。

まとめ

  • SWE-bench系はバグ修正・PR作成の指標として有効だが、scaffoldの違いに注意
  • Terminal-Bench 2.0はCLI/ターミナル作業の適性を測る新しい標準
  • WebDev ArenaはUI実装の人間評価を反映したEloスコア
  • 価格比較は入力/出力比率を固定し、定期的に更新する仕組みを作る
  • ベンチマークは入口、本番は自分の環境でのスモークテストで決める

参考リンク(一次情報中心)