GitHub Copilot 推論レベル完全ガイド — Low/Medium/High/x-HighとAI Creditsの使い分け¶
対象 / ポイント
対象: GitHub Copilot(Pro/Pro+/Enterprise)を使っていて、モデルピッカーの推論レベルが何を意味するか把握したいエンジニア
ポイント:
- 推論レベルはモデルの「考える量」を制御する。異なるモデルではなく、同一モデルのthinking tokensの量が変わる
- 2026年6月以降のusage-based billingでは、高い推論レベルほどAI Credits消費が増え得る
- 基本は既定値を使い、設計判断・複数ファイル修正・デバッグだけHigh以上へ上げる
推論レベルとは何か¶
VS Code 1.113(2026年3月25日)で導入されたThinking Effortセレクターは、モデルが応答を生成する際の「考える深さ」を制御する。現在はモデルピッカーから推論レベルを選ぶ形が基本で、以前の github.copilot.chat.responsesApiReasoningEffort 設定は非推奨になっている。1
モデルピッカーの横にサブメニューが表示され、Low / Medium / High などの段階を選択できる。利用できる推論レベルはモデルと提供面によって変わる。非推論モデルでは、そもそもThinking Effortのサブメニューが表示されない。
重要な点は、推論レベルを変えてもモデル自体は変わらないこと。同じGPT-5.4でも、Lowなら最小限の推論チェーンで即応答し、x-Highなら大幅に多くのthinking tokensを割り当てて深く考える。
対応モデルと推論レベル¶
| モデル種別 | Thinking Effort | 判断 |
|---|---|---|
| GPT-5.4 / GPT-5.3-Codex などの推論モデル | 利用可能な場合あり | 複雑な設計・デバッグ向け |
| Claude Sonnet / Opus 系の推論モデル | 利用可能な場合あり | 品質重視の実装・レビュー向け |
| GPT-4.1 / GPT-4o / GPT-5 mini など | 表示されない場合あり | 軽い確認や通常のChat向け |
| Claude Haiku / Gemini Flash など | 表示されない場合あり | 速度・コスト優先の作業向け |
非対応モデル(推論レベルの選択肢が表示されない):
- GPT-4.1, GPT-4o, GPT-5 mini — 非推論モデル
- Claude Haiku 4.5, Gemini 3 Flash — 高速応答特化
利用可能なレベルは固定表にしない
GitHub Copilotのモデル、長文コンテキスト、推論レベルは更新が速い。記事内のモデル名より、実際のモデルピッカーと公式モデルドキュメントを優先する。3
コスト:2026年6月以降はAI Creditsにも影響する¶
これが最も重要な事実だ。
2026年6月以降のusage-based billingでは、推論レベルを上げるとAI Credits消費が増え得る。
GitHubは、Copilotのコストがモデルと消費トークン数で決まると説明している。入力、出力、キャッシュ済み文脈がAI Creditsへ換算される。さらに2026年6月4日のGitHub Changelogでは、larger context windowやhigher reasoning levelを選ぶと、1回あたりのAI Credits消費が増えると明記された。23
旧premium request時代は「同じモデルなら推論レベルを上げてもrequest倍率は同じ」と説明できる場面があった。しかし現行課金では、同じモデルでもthinking tokensや出力が増えればAI Creditsに影響する。
| 判断軸 | 旧premium request記事の見方 | 2026年6月以降のAI Creditsの見方 |
|---|---|---|
| コスト単位 | リクエスト数とモデル倍率 | モデル単価、入力、出力、キャッシュ、thinking tokens |
| Highの扱い | 同一モデルなら倍率は同じと見なせた | 1回あたりの消費が増え得る |
| 節約方針 | 往復回数を減らす | 往復回数に加え、文脈量と推論レベルを絞る |
つまり、High以上は無料の品質向上スイッチではない。使うべき場面では使うが、日常の軽い確認まで常時High/x-Highに固定する必要はない。
各レベルの実際の違い¶
| レベル | 挙動 | レイテンシ | 適する場面 |
|---|---|---|---|
| Low | 最小限の推論。即応答 | 最速 | ボイラープレート、構文の質問 |
| Medium / 既定値 | バランス重視 | 速い | 一般的なコーディング |
| High | 深い推論チェーン | やや遅い | リファクタリング、設計判断 |
| x-High / extended thinking | 最大級の推論バジェット | 最も遅く、消費も増えやすい | セキュリティ監査、大規模移行 |
速度差だけでなく消費差も見る¶
高い推論レベルは、複雑なタスクでは応答精度を上げやすい。一方で、VS CodeのAI Credits最適化ガイドは、higher effortがthinking tokensを増やし、レイテンシとcredit消費を増やすと説明している。4
一方で、Lowは確かに速いが、応答の質が明確に落ちる場面がある。たとえば複数ファイルにまたがるリファクタリングでは、Lowだとファイル間の依存関係を見落とすことがある。
いつHigh以上に上げるべきか¶
High以上に上げる判断は、品質リスクで決める。
| 場面 | 推奨 |
|---|---|
| 仕様の読み替え、命名相談、単純なAPI確認 | 既定値または軽量モデル |
| 1〜2ファイルの小修正 | 既定値から開始し、不足時だけ上げる |
| 複数ファイルのリファクタリング | Highを検討する |
| セキュリティレビュー、移行設計、障害原因分析 | High以上を検討する |
| 長大なログやリポジトリ全体を読む作業 | 先に範囲を絞り、それでも必要なら上げる |
重要なのは、推論レベルを上げる前に対象範囲を絞ることだ。巨大な文脈を渡したままHighにすると、品質は上がるかもしれないが、AI Credits消費も増えやすい。
Lowを使うべき場面は存在するか¶
結論から言えば、存在するが限定的だ。
Lowが有効な場面:
- 単純なコード補完やスニペット生成
- 「この関数のシグネチャを教えて」のような即答型の質問
- プロトタイピングでの高速フィードバックループ
- ドキュメントコメントの自動生成
Lowを使うべきでない場面:
- マルチファイルのリファクタリング
- セキュリティレビューや脆弱性分析
- DBスキーマ変更やフレームワーク移行
- アーキテクチャの意思決定
要するに、「考える必要がないタスク」にはLowまたは既定値、「考えてほしいタスク」にはHigh以上という使い分けになる。
ただし、迷ったら常にHighではない。AI Creditsを抑えたいなら、まず既定値で試し、失敗時だけ推論レベルを上げる。
推奨設定¶
推奨は、常時Highではなく既定値を基準にしたタスク別切り替えだ。
- 通常のChat、軽い修正、説明生成は既定値。
- 設計判断、複数ファイル修正、原因分析ではHigh。
- セキュリティ監査、大規模移行、失敗時の再分析だけx-Highまたはextended thinking。
- 長文コンテキストとHigh以上を同時に使う前に、対象ファイルとログ範囲を削る。
モデルピッカーで切り替える
VS Code 1.113以降では、対応モデルのモデルピッカーからThinking Effortを切り替えられる。古い settings.json 固定ではなく、タスクごとにUIで確認する。
AI Creditsの節約まで含めて設計する場合は、GitHub Copilot AI Credits節約術も合わせて確認する。
まとめ¶
- 推論レベルは同一モデルの「考える量」を制御する。モデル自体は変わらない
- 2026年6月以降のAI Creditsでは、高い推論レベルほど消費が増え得る
- 品質が必要な複雑作業ではHigh以上を使う価値がある
- 日常作業は既定値で始め、失敗時だけ推論レベルを上げる
推論レベルは、品質を上げるためのつまみだ。同時に、AI Creditsを消費するつまみでもある。常時最大ではなく、タスクの失敗リスクに合わせて上げるのが現実的だ。
関連記事¶
- GitHub Copilot AI Credits節約術 — usage-based billingでAI Creditsを節約する方法
- GitHub Copilot Hooks完全ガイド — ワークフロー自動化
- GitHub Copilot カスタム指示ガイド — プロンプト品質の向上