Gemini 3.1 Pro「16項目中13で首位」の裏側 ── 公開されたベンチマークと公開されなかったベンチマーク¶

TL;DR

Gemini 3.1 ProはARC-AGI-2 77.1%、GPQA Diamond 94.3%で推論・科学知識領域に強い
ただしGPT-5.3-Codexは16項目中14が未公開——不在の相手に勝っている項目が多い
GDPval-AA（実務タスク）ではClaude系に約300ポイント差で劣後
Arena（ユーザー投票）ではOpus 4.6と4ポイント差でほぼ互角
コストはOpus半額以下。「全方位最強」は存在せず、用途別に選ぶのが合理的

対象: LLMの性能比較に関心のあるエンジニア・意思決定者

Google公式ベンチマークの読み解き方を知りたい方 Gemini 3.1 Pro / Claude Opus 4.6 / GPT-5.3-Codexの実力差を把握したい方用途別にどのモデルを選ぶべきか判断材料が欲しい方

この記事のポイント¶

「13/16で首位」の内実 GPT-5.3-Codexが大半未公開のため不在の相手に勝っている項目が多い
第三者評価との乖離 ArenaではOpus 4.6と4ポイント差で互角、GDPval-AAでは300pt差で劣後
コスパでは明確に優位 Opus 4.6の半額以下で同等以上の推論性能を達成

速報記事について

本記事は2026年2月20日リリース直後の情報に基づく。Arena（旧LMSYS）でのユーザー投票データは初期段階であり、今後のデータ蓄積で評価が変動する可能性がある。

Google公式ベンチマーク：16項目中13で首位を主張¶

2026年2月20日、GoogleはGemini 3.1 Proをプレビューリリースした。ARC-AGI-2で77.1%、GPQA Diamondで94.3%と、複数のベンチマークで業界最高スコアを記録している。

Google公式（deepmind.google）では、Gemini 3.1 Proを含む6モデルの比較表が公開された。比較対象はGemini 3 Pro、Sonnet 4.6、Opus 4.6、GPT-5.2、GPT-5.3-Codex。

主要スコア一覧¶

ベンチマーク	Gemini 3.1 Pro	Opus 4.6	GPT-5.2	GPT-5.3-Codex
ARC-AGI-2（抽象推論）	77.1%	68.8%	52.9%	—
GPQA Diamond（科学知識）	94.3%	91.3%	92.4%	—
HLE ツールなし（学術推論）	44.4%	40.0%	34.5%	—
HLE ツールあり	51.4%	53.1%	45.5%	—
Terminal-Bench 2.0 標準harness	68.5%	65.4%	54.0%	64.7%
Terminal-Bench 2.0 自社harness	—	—	62.2%	77.3%
SWE-Bench Verified	80.6%	80.8%	80.0%	—
SWE-Bench Pro (Public)	54.2%	—	55.6%	56.8%
GDPval-AA Elo（実務タスク）	1317	1606	1462	—
APEX-Agents	33.5%	29.8%	23.0%	—
MRCR v2 128k	84.9%	84.0%	83.8%	—

※太字は各行の最高スコア。「—」は未公開。GDPval-AAではSonnet 4.6が1633で全モデル中トップ。

なお、上表は主要項目の抜粋であり、公式Model Cardにはこのほかにもエージェント系（BrowseComp 85.9%、MCP Atlas 69.2%、τ2-bench Telecom 99.3%）、競技プログラミング（LiveCodeBench Pro Elo 2887）、多言語（MMMLU 92.6%）などでGemini 3.1 Proが首位を記録している。

この表で見落としてはならない3点¶

1. GPT-5.3-Codexの「—」が圧倒的に多い。 16ベンチマーク中、スコアが入っているのはTerminal-Bench 2.0とSWE-Bench Pro (Public)の2項目のみ。Codexはコーディング特化モデルという位置づけだが、汎用推論ベンチマークを一切公開していない。「Geminiが勝った」と言える土俵が限定的になる。

2. GDPval-AAでの大差。 実務タスク（金融・法務等）の性能を測るGDPval-AAでは、Gemini 3.1 Proは1317。Sonnet 4.6の1633、Opus 4.6の1606に対して300ポイント近く劣後する。Artificial Analysisの検証でも「改善はしたが首位ではない」と明記されている。

3. Googleが自社harnessスコアを出していない。 Terminal-Bench 2.0では、GPT-5.3-Codexが自社harness（Codex harness）で77.3%を報告している。一方、Googleは標準harness（Terminus-2）のスコアのみを掲載。自社harnessでの結果を持っていないか、あるいは公開しない判断をした可能性がある。

第三者評価：リーダーボードによって「最強」が割れている¶

Google公式だけでなく、独立した第三者による評価も見る必要がある。結論から言えば、自動ベンチマーク集約ではGeminiが首位、ユーザー投票ではClaude Opus 4.6が僅差でリードしている。

Artificial Analysis Intelligence Index v4.0¶

Artificial Analysisは、Googleからプレリリースアクセスを受けて独自評価を実施した。Gemini 3.1 Proはスコア57でIndex首位を獲得。Opus 4.6（53）に4ポイント差、Sonnet 4.6（51）に6ポイント差をつけている。

10評価項目中6つで首位となった。Terminal-Bench Hard、AA-Omniscience（ハルシネーション削減）、HLE、GPQA Diamond、SciCode、CritPt（研究レベル物理推論）の6項目。特にCritPtでの18%は次点を5ポイント以上上回り、科学推論領域での強さが際立つ。

ただし同レポートでも、GDPval-AAについては「改善はしたが首位ではない」と明記されている。実務タスクでの課題は第三者からも裏付けられた形になる。

Arena（旧LMSYS Chatbot Arena）¶

ユーザーのブラインドテストに基づくArenaでは、異なる構図が見える。2月20日時点のText Arena上位は以下の通り。

Claude Opus 4.6 — 1504 Elo
Claude Opus 4.6 Thinking — 1504 Elo
Gemini 3.1 Pro Preview — 1500 Elo
Gemini 3 Pro — 1487 Elo

総合（Text）部門で、Gemini 3.1 Proは首位のOpus 4.6にわずか4ポイント差の3位。Google公式ベンチマークでの「圧倒的首位」という見え方とは対照的に、ユーザー体感ではほぼ互角の評価を受けている。Vision部門やCode部門の評価は現在進行中であり、数週間のデータ蓄積で順位が変動する可能性は高い。

Google公式表に含まれていないデータ¶

各社の公式発表には載っているが、Googleの比較表からは除外されているスコアも存在する。

ベンチマーク	モデル	スコア	出典
OSWorld（PC操作）	Opus 4.6	72.7%	Anthropic公式
OSWorld（PC操作）	GPT-5.3-Codex	64.7%	OpenAI公式
MRCR v2 1M 8-needle	Opus 4.6	76%	Anthropic公式
BigLaw Bench（法律推論）	Opus 4.6	90.2%	Anthropic公式
Cybersecurity CTF	GPT-5.3-Codex	77.6%	OpenAI公式

Opus 4.6のOSWorld 72.7%は、Google表に掲載されたどのモデルよりも高い。MRCR v2の100万トークン評価についても、Google表ではOpus 4.6を「Not supported」としているが、Anthropicは1Mコンテキストのベータ対応で76%を主張している。評価時点の差異か意図的な除外かは不明。

コストパフォーマンス：明確な優位性¶

性能以上に注目すべきはコスト構造。API大量消費型のユースケースでは、この差が判断を左右する。

モデル	Input / 1M tokens	Output / 1M tokens	AA Index実行コスト
Gemini 3.1 Pro	$2.00	$12.00	$892
Opus 4.6 (max)	$5.00	$25.00	$1,800超
GPT-5.2 (xhigh)	—	—	$1,800超

Artificial Analysisの全ベンチマーク実行コストで、Gemini 3.1 ProはOpus 4.6の半額以下。同等以上のスコアを出す領域が多い点を考慮すると、大量推論を行うアプリケーションでは合理的な選択肢となる。

用途別の現時点での評価¶

ベンチマーク横断で見ると、「全方位最強」のモデルは存在しない。用途ごとに最有力候補が異なる。

用途	最有力候補	根拠
抽象推論・科学知識	Gemini 3.1 Pro	ARC-AGI-2 77.1%、GPQA 94.3%
競技プログラミング	Gemini 3.1 Pro	LiveCodeBench Pro Elo 2887（2位に約500差）
エージェント（検索・MCP）	Gemini 3.1 Pro	BrowseComp 85.9%、MCP Atlas 69.2%
実務タスク（金融・法務）	Sonnet 4.6 / Opus 4.6	GDPval-AA 1633/1606 vs Gemini 1317
ターミナル操作・CLIコーディング	GPT-5.3-Codex	自社harness 77.3%（標準ではGemini優位）
PC操作エージェント	Opus 4.6	OSWorld 72.7%
長文脈（100万トークン）	Opus 4.6	MRCR v2 1M 76%（ベータ）
コストパフォーマンス	Gemini 3.1 Pro	Opus半額以下で同等以上の推論性能

まとめ：ベンチマーク公開の非対称性を読む¶

Gemini 3.1 Proは推論・科学知識・コスパの面で強力なモデルであり、Artificial Analysis Intelligence Indexでの首位獲得がその裏付けとなっている。ただし、各社のベンチマーク公開戦略を読み解くと、「16項目中13で首位」の解像度は変わる。

不在の相手に勝っている問題。 GPT-5.3-Codexのスコアが16項目中2項目しか公開されていない以上、残り14項目で「Geminiが勝った」と結論づけるのは早計
実務タスクでの300ポイント差。 GDPval-AAでClaude系に大差をつけられている事実は、金融・法務等のエンタープライズ用途を検討する際に無視できない
旧世代に負ける項目もある。 MMMU-Pro（マルチモーダル理解）ではGemini 3 Pro（81.0%）が3.1 Pro（80.5%）を上回っており、新モデルが全方位で旧世代を超えるわけではない
業界共通のパターン。 自社に有利なベンチマークを前面に出し、不利なものを公開しないのはGeminiに限らない。用途別の使い分けと、独立した検証の蓄積を待つ姿勢が合理的

ベンチマーク公開の非対称性は、今後さらに深刻化する可能性がある。各社がエージェント機能（ツール使用・マルチステップ推論）を前面に押し出す中で、評価条件の統一はむしろ難しくなっている。HLEの「ツールあり/なし」で順位が入れ替わる事例が示すように、同じベンチマークでも実行条件次第で結果が変わる。モデル名ではなく「どの条件で測定されたか」を読む習慣が、今後のモデル選定リテラシーの中核になる。

更新予定

Arenaでのスコアが安定し、各種カテゴリ（Vision, Code等）のデータが十分蓄積された段階で、本記事を詳細にアップデートする予定。

参考情報¶

Google DeepMind Model Card: Gemini 3.1 Pro
Google DeepMind 評価方法論: Gemini 3.1 Pro
Google公式ブログ: Gemini 3.1 Pro
Anthropic公式: Claude Opus 4.6
OpenAI公式: GPT-5.3-Codex
Artificial Analysis: Gemini 3.1 Pro Preview
Arena Leaderboard Changelog