コンテンツにスキップ

GPT-5.3-Codex完全ガイド|Terminal-Bench 77.3%・25%高速化・Codexアプリの使い方と導入判断

この記事の対象者

  • エージェント型コーディング(長時間タスク、ツール実行、反復デバッグ)を本番投入したい開発者/Tech Lead
  • 既存のCodex(GPT-5.2世代)から更新すべきか、費用対効果で判断したい人
  • Claude系(例:Opus 4.6)と"使い分けの設計"をしたい導入担当

この記事のポイント

  • GPT-5.3-Codexの狙い(「コードを書く」→「PC上で仕事を完遂する」への拡張)
  • 主要ベンチ(Terminal-Bench / SWE-Bench Pro / OSWorld-Verified ほか)と"差の出る領域"
  • Codexアプリ/CLI/IDE拡張/Webでの使い方(監督・ステアリング・並行作業)
  • 料金/提供形態(どこで使えるか、APIはどうなるか)
  • セキュリティ(Preparedness Frameworkの"High capability"分類とTrusted Access)

関連記事: Codex Planモード完全ガイド | Codex CLI 0.6x完全ガイド | Claude Opus 4.6完全ガイド


GPT-5.3-Codexとは(何が「新」なのか)

OpenAIは2026年2月、GPT-5.3-Codexを発表しました。Codexは「コード生成」から、コンピューター上で仕事を完遂する協働者へと射程を広げています。ポイントは次の3つです。

Frontier agentic capabilities(長時間・多段タスクの完走力)

  • 調査 → 実装 → デバッグ → テスト → デプロイ → 監視…のような多段作業を、途中で止まらずに進める設計
  • "人が逐一コマンドを出す"から、"人は監督と意思決定に寄せる"方向

Interactive collaborator(途中介入=ステアリング前提)

  • 完了まで待つのではなく、作業の途中で質問・方向修正・優先度変更を入れられる思想
  • エージェントの暴走を防ぎつつ、スループットを上げるためのUI/体験が主戦場になっている

25%高速化(Codex利用時)

  • OpenAIは、Codexユーザーに対して GPT-5.3-Codexを25%高速に動かす(推論/インフラ最適化)としている
  • 体感差はタスク次第だが、反復ループ(失敗→修正→再実行)が多い開発では効きやすい

ベンチマーク(公式値):どこが伸びた?

OpenAI公式の代表値は次の通りです(括弧内は比較対象)。

指標GPT-5.3-CodexGPT-5.2-CodexGPT-5.2何を見る?
Terminal-Bench 2.077.3%64.0%62.2%端末操作を伴うエージェント実行
SWE-Bench Pro (Public)56.8%56.4%55.6%実務寄りSEタスク
OSWorld-Verified64.7%38.2%37.9%デスクトップ操作系
SWE-Lancer IC Diamond81.4%76.0%74.6%実務タスクの請負系
Cybersecurity CTF77.6%67.4%67.7%セキュリティ課題(防御含む)
GDPval (wins or ties)70.9%-70.9% (high)知識労働の勝率系

読み方(重要)

  • Terminal-Bench/OSWorldが大きく伸びている=「ツールを叩きながら完走する」系に最適化されている可能性が高い
  • SWE-Bench Proは伸び幅が小さい=純粋な修正タスクだけでは体感差が出にくい場面もあり得る

どこで使える?(Codexアプリ / CLI / IDE / Web)

OpenAIは、GPT-5.3-Codexが有料ChatGPTプランでCodexが使える場所(アプリ/CLI/IDE拡張/Web)で利用可能としています。APIは「安全に有効化を進めている」段階です。

Codexアプリの要点("エージェントを指揮する"設計)

Codexアプリは、IDEやターミナルを置き換えるというより、複数の作業(スレッド)を監督する司令塔に寄せた構造です。

  • 複数タスクを並行で走らせ、進捗/ログ/差分を見ながら指示を出す
  • 「深追いしすぎたら止める」「方針を切り替える」を前提にしたUI

Codex CLIの詳細は Codex CLI 0.6x完全ガイド を参照してください。計画と実行を分離したワークフローについては Codex Planモード完全ガイド でカバーしています。

APIの現状

APIは「安全に有効化を進めている(safely enabling access)」段階です。即座にAPIで自由に呼べる状態ではなく、段階的な提供が見込まれます。


セキュリティ:なぜ"High capability"扱いなのか

OpenAIは、GPT-5.3-Codexを Preparedness Framework上でサイバー領域"High capability"に分類した最初のモデルと述べ、段階的な提供と監視・制御を強調しています。

具体的には、安全学習、監視、Trusted Access、脅威インテリジェンス等を含む"包括的なサイバー安全スタック"を適用し、Trusted Access for Cyber(パイロット)を立ち上げています。

実務への含意

  • 企業導入では「APIで自由に呼べる」より先に、提供形態(アプリ/CLI/IDE)で統制する戦略が来る可能性が高い
  • セキュリティレビュー観点では、権限(実行/書込/外部アクセス)と監査ログの設計が主戦場

良い反応(強みが刺さる領域)

開発者向けには、次の点が刺さりやすいです。

  • 端末/デスクトップ操作を含む"実行込み"が強い(Terminal-Bench/OSWorldの伸びと整合)
  • 途中介入(ステアリング)前提で、暴走させずに速度を出しやすい
  • 反復が多い現場で、25%高速化が効く

批判・懸念(運用摩擦/品質の揺れ)

一方で、リリース直後の"現場っぽい"不満も出ています(主にUX/統合面)。

  • 端末出力の取り回し: ターミナル統合が弱く、コピペが増えてループが遅くなる、という要望
  • ワークツリー/スレッド表示の不具合: スレッドが一覧に出ない等の報告
  • Macでの負荷/発熱: 常駐UIとしての負荷を指摘する声
  • 「速くなった/逆にナーフされた?」系の体感差: 個体差・時点差・設定差で議論が割れがち

扱い方

ここは"ベンチの勝ち負け"より、導入時の摩擦(統合・ログ・権限・監督UI)がボトルネックになりやすい。 PoCでは機能比較より運用比較(監査、ログ、権限、チーム内プロセス)を先に検証するのがおすすめ。


Claude Opus 4.6とどう使い分ける?

「宗教戦争」になりやすい問いですが、分解して判断します。詳細な比較は Claude Opus 4.6完全ガイド を参照してください。

強みの軸

GPT-5.3-CodexClaude Opus 4.6
実行・完走端末/デスクトップ操作、反復の速さ-
深い設計・分析-長文/巨大コンテキスト、深い設計・分析
ステアリング途中介入UIが充実Agent Teams/並列で統制

導入判断の現実論

  • 片方に寄せるより、タスク種別で切り替える方がROIが出やすい
    • 例)「実行/反復」→ Codex、「仕様/設計/レビュー」→ 別モデル
  • どちらもPoCで「刺さるタスク」を特定してから本番投入を決めるのが鉄則

PoC手順(おすすめ:1週間で結論を出す)

  1. 代表タスクを10本選ぶ(バグ修正×3、リファクタ×3、機能追加×2、CI改善×2)
  2. 各タスクで「成功/失敗」だけでなく人の介入回数やり直し回数を取る
  3. コストは"トークン"より工数(介入分)を主要指標にする
  4. セキュリティは権限・監査ログ・外部通信をチェックリスト化
  5. 1週間で「刺さるタスク」と「刺さらないタスク」を切り分け、運用設計に落とす

よくある質問(FAQ)

GPT-5.3-Codexはどこで使える?

有料ChatGPTプラン(Pro/Max等)でCodexが使える場所すべてで利用可能です。具体的には、Codexアプリ(デスクトップ)、Codex CLI、IDE拡張、Web版が対象です。

APIはいつ使えるようになる?

OpenAIは「安全に有効化を進めている(safely enabling access)」としていますが、具体的な日程は未発表です。Preparedness Framework上での"High capability"分類に起因する段階的提供の一環と見られます。

Terminal-Benchの差は実務で効く?

Terminal-Bench 2.0で77.3%(GPT-5.2-Codex: 64.0%)は大きな伸びですが、端末操作を伴う多段エージェント実行が主対象です。コードレビューや単発修正のような"実行を伴わない"タスクでは体感差が出にくい可能性があります。PoCで自チームのタスク分布を確認するのが確実です。

セキュリティ制御では何を見るべき?

以下を優先的にチェックしてください。

  • 権限スコープ: ファイル書込・ネットワークアクセス・外部API呼び出しの許可範囲
  • 監査ログ: 実行コマンド・変更差分がトレース可能か
  • Trusted Access: OpenAIのTrusted Access for Cyber(パイロット)の適用状況
  • サンドボックス境界: エージェントがアクセスできるリソースの制限設計

関連Codex CLIガイド

参考リンク(一次情報)