コンテンツにスキップ

Google Gemini 完全ガイド

Gemini 3.1 Pro「16項目中13で首位」の裏側 ── 公開されたベンチマークと公開されなかったベンチマーク

TL;DR

  • Gemini 3.1 ProはARC-AGI-2 77.1%、GPQA Diamond 94.3%で推論・科学知識領域に強い
  • ただしGPT-5.3-Codexは16項目中14が未公開——不在の相手に勝っている項目が多い
  • GDPval-AA(実務タスク)ではClaude系に約300ポイント差で劣後
  • Arena(ユーザー投票)ではOpus 4.6と4ポイント差でほぼ互角
  • コストはOpus半額以下。「全方位最強」は存在せず、用途別に選ぶのが合理的

対象: LLMの性能比較に関心のあるエンジニア・意思決定者

Google公式ベンチマークの読み解き方を知りたい方 Gemini 3.1 Pro / Claude Opus 4.6 / GPT-5.3-Codexの実力差を把握したい方 用途別にどのモデルを選ぶべきか判断材料が欲しい方

この記事のポイント

  • 「13/16で首位」の内実 GPT-5.3-Codexが大半未公開のため不在の相手に勝っている項目が多い
  • 第三者評価との乖離 ArenaではOpus 4.6と4ポイント差で互角、GDPval-AAでは300pt差で劣後
  • コスパでは明確に優位 Opus 4.6の半額以下で同等以上の推論性能を達成

速報記事について

本記事は2026年2月20日リリース直後の情報に基づく。Arena(旧LMSYS)でのユーザー投票データは初期段階であり、今後のデータ蓄積で評価が変動する可能性がある。

Google公式ベンチマーク:16項目中13で首位を主張

2026年2月20日、GoogleはGemini 3.1 Proをプレビューリリースした。ARC-AGI-2で77.1%、GPQA Diamondで94.3%と、複数のベンチマークで業界最高スコアを記録している。

Google公式(deepmind.google)では、Gemini 3.1 Proを含む6モデルの比較表が公開された。比較対象はGemini 3 Pro、Sonnet 4.6、Opus 4.6、GPT-5.2、GPT-5.3-Codex。

主要スコア一覧

ベンチマークGemini 3.1 ProOpus 4.6GPT-5.2GPT-5.3-Codex
ARC-AGI-2(抽象推論)77.1%68.8%52.9%
GPQA Diamond(科学知識)94.3%91.3%92.4%
HLE ツールなし(学術推論)44.4%40.0%34.5%
HLE ツールあり51.4%53.1%45.5%
Terminal-Bench 2.0 標準harness68.5%65.4%54.0%64.7%
Terminal-Bench 2.0 自社harness62.2%77.3%
SWE-Bench Verified80.6%80.8%80.0%
SWE-Bench Pro (Public)54.2%55.6%56.8%
GDPval-AA Elo(実務タスク)131716061462
APEX-Agents33.5%29.8%23.0%
MRCR v2 128k84.9%84.0%83.8%

※太字は各行の最高スコア。「—」は未公開。GDPval-AAではSonnet 4.6が1633で全モデル中トップ。

なお、上表は主要項目の抜粋であり、公式Model Cardにはこのほかにもエージェント系(BrowseComp 85.9%、MCP Atlas 69.2%、τ2-bench Telecom 99.3%)、競技プログラミング(LiveCodeBench Pro Elo 2887)、多言語(MMMLU 92.6%)などでGemini 3.1 Proが首位を記録している。

この表で見落としてはならない3点

1. GPT-5.3-Codexの「—」が圧倒的に多い。 16ベンチマーク中、スコアが入っているのはTerminal-Bench 2.0とSWE-Bench Pro (Public)の2項目のみ。Codexはコーディング特化モデルという位置づけだが、汎用推論ベンチマークを一切公開していない。「Geminiが勝った」と言える土俵が限定的になる。

2. GDPval-AAでの大差。 実務タスク(金融・法務等)の性能を測るGDPval-AAでは、Gemini 3.1 Proは1317。Sonnet 4.6の1633、Opus 4.6の1606に対して300ポイント近く劣後する。Artificial Analysisの検証でも「改善はしたが首位ではない」と明記されている。

3. Googleが自社harnessスコアを出していない。 Terminal-Bench 2.0では、GPT-5.3-Codexが自社harness(Codex harness)で77.3%を報告している。一方、Googleは標準harness(Terminus-2)のスコアのみを掲載。自社harnessでの結果を持っていないか、あるいは公開しない判断をした可能性がある。

第三者評価:リーダーボードによって「最強」が割れている

Google公式だけでなく、独立した第三者による評価も見る必要がある。結論から言えば、自動ベンチマーク集約ではGeminiが首位、ユーザー投票ではClaude Opus 4.6が僅差でリードしている。

Artificial Analysis Intelligence Index v4.0

Artificial Analysisは、Googleからプレリリースアクセスを受けて独自評価を実施した。Gemini 3.1 Proはスコア57でIndex首位を獲得。Opus 4.6(53)に4ポイント差、Sonnet 4.6(51)に6ポイント差をつけている。

10評価項目中6つで首位となった。Terminal-Bench Hard、AA-Omniscience(ハルシネーション削減)、HLE、GPQA Diamond、SciCode、CritPt(研究レベル物理推論)の6項目。特にCritPtでの18%は次点を5ポイント以上上回り、科学推論領域での強さが際立つ。

ただし同レポートでも、GDPval-AAについては「改善はしたが首位ではない」と明記されている。実務タスクでの課題は第三者からも裏付けられた形になる。

Arena(旧LMSYS Chatbot Arena)

ユーザーのブラインドテストに基づくArenaでは、異なる構図が見える。2月20日時点のText Arena上位は以下の通り。

  • Claude Opus 4.6 — 1504 Elo
  • Claude Opus 4.6 Thinking — 1504 Elo
  • Gemini 3.1 Pro Preview — 1500 Elo
  • Gemini 3 Pro — 1487 Elo

総合(Text)部門で、Gemini 3.1 Proは首位のOpus 4.6にわずか4ポイント差の3位。Google公式ベンチマークでの「圧倒的首位」という見え方とは対照的に、ユーザー体感ではほぼ互角の評価を受けている。Vision部門やCode部門の評価は現在進行中であり、数週間のデータ蓄積で順位が変動する可能性は高い。

Google公式表に含まれていないデータ

各社の公式発表には載っているが、Googleの比較表からは除外されているスコアも存在する。

ベンチマークモデルスコア出典
OSWorld(PC操作)Opus 4.672.7%Anthropic公式
OSWorld(PC操作)GPT-5.3-Codex64.7%OpenAI公式
MRCR v2 1M 8-needleOpus 4.676%Anthropic公式
BigLaw Bench(法律推論)Opus 4.690.2%Anthropic公式
Cybersecurity CTFGPT-5.3-Codex77.6%OpenAI公式

Opus 4.6のOSWorld 72.7%は、Google表に掲載されたどのモデルよりも高い。MRCR v2の100万トークン評価についても、Google表ではOpus 4.6を「Not supported」としているが、Anthropicは1Mコンテキストのベータ対応で76%を主張している。評価時点の差異か意図的な除外かは不明。

コストパフォーマンス:明確な優位性

性能以上に注目すべきはコスト構造。API大量消費型のユースケースでは、この差が判断を左右する。

モデルInput / 1M tokensOutput / 1M tokensAA Index実行コスト
Gemini 3.1 Pro$2.00$12.00$892
Opus 4.6 (max)$5.00$25.00$1,800超
GPT-5.2 (xhigh)$1,800超

Artificial Analysisの全ベンチマーク実行コストで、Gemini 3.1 ProはOpus 4.6の半額以下。同等以上のスコアを出す領域が多い点を考慮すると、大量推論を行うアプリケーションでは合理的な選択肢となる。

用途別の現時点での評価

ベンチマーク横断で見ると、「全方位最強」のモデルは存在しない。用途ごとに最有力候補が異なる。

用途最有力候補根拠
抽象推論・科学知識Gemini 3.1 ProARC-AGI-2 77.1%、GPQA 94.3%
競技プログラミングGemini 3.1 ProLiveCodeBench Pro Elo 2887(2位に約500差)
エージェント(検索・MCP)Gemini 3.1 ProBrowseComp 85.9%、MCP Atlas 69.2%
実務タスク(金融・法務)Sonnet 4.6 / Opus 4.6GDPval-AA 1633/1606 vs Gemini 1317
ターミナル操作・CLIコーディングGPT-5.3-Codex自社harness 77.3%(標準ではGemini優位)
PC操作エージェントOpus 4.6OSWorld 72.7%
長文脈(100万トークン)Opus 4.6MRCR v2 1M 76%(ベータ)
コストパフォーマンスGemini 3.1 ProOpus半額以下で同等以上の推論性能

まとめ:ベンチマーク公開の非対称性を読む

Gemini 3.1 Proは推論・科学知識・コスパの面で強力なモデルであり、Artificial Analysis Intelligence Indexでの首位獲得がその裏付けとなっている。ただし、各社のベンチマーク公開戦略を読み解くと、「16項目中13で首位」の解像度は変わる。

  • 不在の相手に勝っている問題。 GPT-5.3-Codexのスコアが16項目中2項目しか公開されていない以上、残り14項目で「Geminiが勝った」と結論づけるのは早計
  • 実務タスクでの300ポイント差。 GDPval-AAでClaude系に大差をつけられている事実は、金融・法務等のエンタープライズ用途を検討する際に無視できない
  • 旧世代に負ける項目もある。 MMMU-Pro(マルチモーダル理解)ではGemini 3 Pro(81.0%)が3.1 Pro(80.5%)を上回っており、新モデルが全方位で旧世代を超えるわけではない
  • 業界共通のパターン。 自社に有利なベンチマークを前面に出し、不利なものを公開しないのはGeminiに限らない。用途別の使い分けと、独立した検証の蓄積を待つ姿勢が合理的

ベンチマーク公開の非対称性は、今後さらに深刻化する可能性がある。各社がエージェント機能(ツール使用・マルチステップ推論)を前面に押し出す中で、評価条件の統一はむしろ難しくなっている。HLEの「ツールあり/なし」で順位が入れ替わる事例が示すように、同じベンチマークでも実行条件次第で結果が変わる。モデル名ではなく「どの条件で測定されたか」を読む習慣が、今後のモデル選定リテラシーの中核になる。

更新予定

Arenaでのスコアが安定し、各種カテゴリ(Vision, Code等)のデータが十分蓄積された段階で、本記事を詳細にアップデートする予定。

関連記事

参考情報