Gemini 3.1 Pro「16項目中13で首位」の裏側 ── 公開されたベンチマークと公開されなかったベンチマーク¶
TL;DR
- Gemini 3.1 ProはARC-AGI-2 77.1%、GPQA Diamond 94.3%で推論・科学知識領域に強い
- ただしGPT-5.3-Codexは16項目中14が未公開——不在の相手に勝っている項目が多い
- GDPval-AA(実務タスク)ではClaude系に約300ポイント差で劣後
- Arena(ユーザー投票)ではOpus 4.6と4ポイント差でほぼ互角
- コストはOpus半額以下。「全方位最強」は存在せず、用途別に選ぶのが合理的
対象: LLMの性能比較に関心のあるエンジニア・意思決定者
Google公式ベンチマークの読み解き方を知りたい方 Gemini 3.1 Pro / Claude Opus 4.6 / GPT-5.3-Codexの実力差を把握したい方 用途別にどのモデルを選ぶべきか判断材料が欲しい方
この記事のポイント¶
- 「13/16で首位」の内実 GPT-5.3-Codexが大半未公開のため不在の相手に勝っている項目が多い
- 第三者評価との乖離 ArenaではOpus 4.6と4ポイント差で互角、GDPval-AAでは300pt差で劣後
- コスパでは明確に優位 Opus 4.6の半額以下で同等以上の推論性能を達成
速報記事について
本記事は2026年2月20日リリース直後の情報に基づく。Arena(旧LMSYS)でのユーザー投票データは初期段階であり、今後のデータ蓄積で評価が変動する可能性がある。
Google公式ベンチマーク:16項目中13で首位を主張¶
2026年2月20日、GoogleはGemini 3.1 Proをプレビューリリースした。ARC-AGI-2で77.1%、GPQA Diamondで94.3%と、複数のベンチマークで業界最高スコアを記録している。
Google公式(deepmind.google)では、Gemini 3.1 Proを含む6モデルの比較表が公開された。比較対象はGemini 3 Pro、Sonnet 4.6、Opus 4.6、GPT-5.2、GPT-5.3-Codex。
主要スコア一覧¶
| ベンチマーク | Gemini 3.1 Pro | Opus 4.6 | GPT-5.2 | GPT-5.3-Codex |
|---|---|---|---|---|
| ARC-AGI-2(抽象推論) | 77.1% | 68.8% | 52.9% | — |
| GPQA Diamond(科学知識) | 94.3% | 91.3% | 92.4% | — |
| HLE ツールなし(学術推論) | 44.4% | 40.0% | 34.5% | — |
| HLE ツールあり | 51.4% | 53.1% | 45.5% | — |
| Terminal-Bench 2.0 標準harness | 68.5% | 65.4% | 54.0% | 64.7% |
| Terminal-Bench 2.0 自社harness | — | — | 62.2% | 77.3% |
| SWE-Bench Verified | 80.6% | 80.8% | 80.0% | — |
| SWE-Bench Pro (Public) | 54.2% | — | 55.6% | 56.8% |
| GDPval-AA Elo(実務タスク) | 1317 | 1606 | 1462 | — |
| APEX-Agents | 33.5% | 29.8% | 23.0% | — |
| MRCR v2 128k | 84.9% | 84.0% | 83.8% | — |
※太字は各行の最高スコア。「—」は未公開。GDPval-AAではSonnet 4.6が1633で全モデル中トップ。
なお、上表は主要項目の抜粋であり、公式Model Cardにはこのほかにもエージェント系(BrowseComp 85.9%、MCP Atlas 69.2%、τ2-bench Telecom 99.3%)、競技プログラミング(LiveCodeBench Pro Elo 2887)、多言語(MMMLU 92.6%)などでGemini 3.1 Proが首位を記録している。
この表で見落としてはならない3点¶
1. GPT-5.3-Codexの「—」が圧倒的に多い。 16ベンチマーク中、スコアが入っているのはTerminal-Bench 2.0とSWE-Bench Pro (Public)の2項目のみ。Codexはコーディング特化モデルという位置づけだが、汎用推論ベンチマークを一切公開していない。「Geminiが勝った」と言える土俵が限定的になる。
2. GDPval-AAでの大差。 実務タスク(金融・法務等)の性能を測るGDPval-AAでは、Gemini 3.1 Proは1317。Sonnet 4.6の1633、Opus 4.6の1606に対して300ポイント近く劣後する。Artificial Analysisの検証でも「改善はしたが首位ではない」と明記されている。
3. Googleが自社harnessスコアを出していない。 Terminal-Bench 2.0では、GPT-5.3-Codexが自社harness(Codex harness)で77.3%を報告している。一方、Googleは標準harness(Terminus-2)のスコアのみを掲載。自社harnessでの結果を持っていないか、あるいは公開しない判断をした可能性がある。
第三者評価:リーダーボードによって「最強」が割れている¶
Google公式だけでなく、独立した第三者による評価も見る必要がある。結論から言えば、自動ベンチマーク集約ではGeminiが首位、ユーザー投票ではClaude Opus 4.6が僅差でリードしている。
Artificial Analysis Intelligence Index v4.0¶
Artificial Analysisは、Googleからプレリリースアクセスを受けて独自評価を実施した。Gemini 3.1 Proはスコア57でIndex首位を獲得。Opus 4.6(53)に4ポイント差、Sonnet 4.6(51)に6ポイント差をつけている。
10評価項目中6つで首位となった。Terminal-Bench Hard、AA-Omniscience(ハルシネーション削減)、HLE、GPQA Diamond、SciCode、CritPt(研究レベル物理推論)の6項目。特にCritPtでの18%は次点を5ポイント以上上回り、科学推論領域での強さが際立つ。
ただし同レポートでも、GDPval-AAについては「改善はしたが首位ではない」と明記されている。実務タスクでの課題は第三者からも裏付けられた形になる。
Arena(旧LMSYS Chatbot Arena)¶
ユーザーのブラインドテストに基づくArenaでは、異なる構図が見える。2月20日時点のText Arena上位は以下の通り。
- Claude Opus 4.6 — 1504 Elo
- Claude Opus 4.6 Thinking — 1504 Elo
- Gemini 3.1 Pro Preview — 1500 Elo
- Gemini 3 Pro — 1487 Elo
総合(Text)部門で、Gemini 3.1 Proは首位のOpus 4.6にわずか4ポイント差の3位。Google公式ベンチマークでの「圧倒的首位」という見え方とは対照的に、ユーザー体感ではほぼ互角の評価を受けている。Vision部門やCode部門の評価は現在進行中であり、数週間のデータ蓄積で順位が変動する可能性は高い。
Google公式表に含まれていないデータ¶
各社の公式発表には載っているが、Googleの比較表からは除外されているスコアも存在する。
| ベンチマーク | モデル | スコア | 出典 |
|---|---|---|---|
| OSWorld(PC操作) | Opus 4.6 | 72.7% | Anthropic公式 |
| OSWorld(PC操作) | GPT-5.3-Codex | 64.7% | OpenAI公式 |
| MRCR v2 1M 8-needle | Opus 4.6 | 76% | Anthropic公式 |
| BigLaw Bench(法律推論) | Opus 4.6 | 90.2% | Anthropic公式 |
| Cybersecurity CTF | GPT-5.3-Codex | 77.6% | OpenAI公式 |
Opus 4.6のOSWorld 72.7%は、Google表に掲載されたどのモデルよりも高い。MRCR v2の100万トークン評価についても、Google表ではOpus 4.6を「Not supported」としているが、Anthropicは1Mコンテキストのベータ対応で76%を主張している。評価時点の差異か意図的な除外かは不明。
コストパフォーマンス:明確な優位性¶
性能以上に注目すべきはコスト構造。API大量消費型のユースケースでは、この差が判断を左右する。
| モデル | Input / 1M tokens | Output / 1M tokens | AA Index実行コスト |
|---|---|---|---|
| Gemini 3.1 Pro | $2.00 | $12.00 | $892 |
| Opus 4.6 (max) | $5.00 | $25.00 | $1,800超 |
| GPT-5.2 (xhigh) | — | — | $1,800超 |
Artificial Analysisの全ベンチマーク実行コストで、Gemini 3.1 ProはOpus 4.6の半額以下。同等以上のスコアを出す領域が多い点を考慮すると、大量推論を行うアプリケーションでは合理的な選択肢となる。
用途別の現時点での評価¶
ベンチマーク横断で見ると、「全方位最強」のモデルは存在しない。用途ごとに最有力候補が異なる。
| 用途 | 最有力候補 | 根拠 |
|---|---|---|
| 抽象推論・科学知識 | Gemini 3.1 Pro | ARC-AGI-2 77.1%、GPQA 94.3% |
| 競技プログラミング | Gemini 3.1 Pro | LiveCodeBench Pro Elo 2887(2位に約500差) |
| エージェント(検索・MCP) | Gemini 3.1 Pro | BrowseComp 85.9%、MCP Atlas 69.2% |
| 実務タスク(金融・法務) | Sonnet 4.6 / Opus 4.6 | GDPval-AA 1633/1606 vs Gemini 1317 |
| ターミナル操作・CLIコーディング | GPT-5.3-Codex | 自社harness 77.3%(標準ではGemini優位) |
| PC操作エージェント | Opus 4.6 | OSWorld 72.7% |
| 長文脈(100万トークン) | Opus 4.6 | MRCR v2 1M 76%(ベータ) |
| コストパフォーマンス | Gemini 3.1 Pro | Opus半額以下で同等以上の推論性能 |
まとめ:ベンチマーク公開の非対称性を読む¶
Gemini 3.1 Proは推論・科学知識・コスパの面で強力なモデルであり、Artificial Analysis Intelligence Indexでの首位獲得がその裏付けとなっている。ただし、各社のベンチマーク公開戦略を読み解くと、「16項目中13で首位」の解像度は変わる。
- 不在の相手に勝っている問題。 GPT-5.3-Codexのスコアが16項目中2項目しか公開されていない以上、残り14項目で「Geminiが勝った」と結論づけるのは早計
- 実務タスクでの300ポイント差。 GDPval-AAでClaude系に大差をつけられている事実は、金融・法務等のエンタープライズ用途を検討する際に無視できない
- 旧世代に負ける項目もある。 MMMU-Pro(マルチモーダル理解)ではGemini 3 Pro(81.0%)が3.1 Pro(80.5%)を上回っており、新モデルが全方位で旧世代を超えるわけではない
- 業界共通のパターン。 自社に有利なベンチマークを前面に出し、不利なものを公開しないのはGeminiに限らない。用途別の使い分けと、独立した検証の蓄積を待つ姿勢が合理的
ベンチマーク公開の非対称性は、今後さらに深刻化する可能性がある。各社がエージェント機能(ツール使用・マルチステップ推論)を前面に押し出す中で、評価条件の統一はむしろ難しくなっている。HLEの「ツールあり/なし」で順位が入れ替わる事例が示すように、同じベンチマークでも実行条件次第で結果が変わる。モデル名ではなく「どの条件で測定されたか」を読む習慣が、今後のモデル選定リテラシーの中核になる。
更新予定
Arenaでのスコアが安定し、各種カテゴリ(Vision, Code等)のデータが十分蓄積された段階で、本記事を詳細にアップデートする予定。
関連記事¶
- Codex CLI vs Claude Code 2026 Opus 4.6 vs GPT-5.3-Codex ベンチマーク詳細比較
- LLMコーディングベンチマーク比較 2026 コーディングベンチマーク4指標の読み解き方
- Claude Code完全ガイド 1Mコンテキスト・ベンチマーク・料金の全体像
- GPT-5 Codex入門ガイド Codex CLIの活用と導入判断
参考情報¶
- Google DeepMind Model Card: Gemini 3.1 Pro
- Google DeepMind 評価方法論: Gemini 3.1 Pro
- Google公式ブログ: Gemini 3.1 Pro
- Anthropic公式: Claude Opus 4.6
- OpenAI公式: GPT-5.3-Codex
- Artificial Analysis: Gemini 3.1 Pro Preview
- Arena Leaderboard Changelog