コンテンツにスキップ

GitHub Copilot 完全ガイド

GitHub Copilot 推論レベル完全ガイド — Low/Medium/High/x-HighとAI Creditsの使い分け

対象 / ポイント

対象: GitHub Copilot(Pro/Pro+/Enterprise)を使っていて、モデルピッカーの推論レベルが何を意味するか把握したいエンジニア

ポイント:

  • 推論レベルはモデルの「考える量」を制御する。異なるモデルではなく、同一モデルのthinking tokensの量が変わる
  • 2026年6月以降のusage-based billingでは、高い推論レベルほどAI Credits消費が増え得る
  • 基本は既定値を使い、設計判断・複数ファイル修正・デバッグだけHigh以上へ上げる

推論レベルとは何か

VS Code 1.113(2026年3月25日)で導入されたThinking Effortセレクターは、モデルが応答を生成する際の「考える深さ」を制御する。現在はモデルピッカーから推論レベルを選ぶ形が基本で、以前の github.copilot.chat.responsesApiReasoningEffort 設定は非推奨になっている。1

モデルピッカーの横にサブメニューが表示され、Low / Medium / High などの段階を選択できる。利用できる推論レベルはモデルと提供面によって変わる。非推論モデルでは、そもそもThinking Effortのサブメニューが表示されない。

重要な点は、推論レベルを変えてもモデル自体は変わらないこと。同じGPT-5.4でも、Lowなら最小限の推論チェーンで即応答し、x-Highなら大幅に多くのthinking tokensを割り当てて深く考える。

対応モデルと推論レベル

モデル種別Thinking Effort判断
GPT-5.4 / GPT-5.3-Codex などの推論モデル利用可能な場合あり複雑な設計・デバッグ向け
Claude Sonnet / Opus 系の推論モデル利用可能な場合あり品質重視の実装・レビュー向け
GPT-4.1 / GPT-4o / GPT-5 mini など表示されない場合あり軽い確認や通常のChat向け
Claude Haiku / Gemini Flash など表示されない場合あり速度・コスト優先の作業向け

非対応モデル(推論レベルの選択肢が表示されない):

  • GPT-4.1, GPT-4o, GPT-5 mini — 非推論モデル
  • Claude Haiku 4.5, Gemini 3 Flash — 高速応答特化

利用可能なレベルは固定表にしない

GitHub Copilotのモデル、長文コンテキスト、推論レベルは更新が速い。記事内のモデル名より、実際のモデルピッカーと公式モデルドキュメントを優先する。3

コスト:2026年6月以降はAI Creditsにも影響する

これが最も重要な事実だ。

2026年6月以降のusage-based billingでは、推論レベルを上げるとAI Credits消費が増え得る。

GitHubは、Copilotのコストがモデルと消費トークン数で決まると説明している。入力、出力、キャッシュ済み文脈がAI Creditsへ換算される。さらに2026年6月4日のGitHub Changelogでは、larger context windowやhigher reasoning levelを選ぶと、1回あたりのAI Credits消費が増えると明記された。23

旧premium request時代は「同じモデルなら推論レベルを上げてもrequest倍率は同じ」と説明できる場面があった。しかし現行課金では、同じモデルでもthinking tokensや出力が増えればAI Creditsに影響する。

判断軸旧premium request記事の見方2026年6月以降のAI Creditsの見方
コスト単位リクエスト数とモデル倍率モデル単価、入力、出力、キャッシュ、thinking tokens
Highの扱い同一モデルなら倍率は同じと見なせた1回あたりの消費が増え得る
節約方針往復回数を減らす往復回数に加え、文脈量と推論レベルを絞る

つまり、High以上は無料の品質向上スイッチではない。使うべき場面では使うが、日常の軽い確認まで常時High/x-Highに固定する必要はない。

各レベルの実際の違い

レベル挙動レイテンシ適する場面
Low最小限の推論。即応答最速ボイラープレート、構文の質問
Medium / 既定値バランス重視速い一般的なコーディング
High深い推論チェーンやや遅いリファクタリング、設計判断
x-High / extended thinking最大級の推論バジェット最も遅く、消費も増えやすいセキュリティ監査、大規模移行

速度差だけでなく消費差も見る

高い推論レベルは、複雑なタスクでは応答精度を上げやすい。一方で、VS CodeのAI Credits最適化ガイドは、higher effortがthinking tokensを増やし、レイテンシとcredit消費を増やすと説明している。4

一方で、Lowは確かに速いが、応答の質が明確に落ちる場面がある。たとえば複数ファイルにまたがるリファクタリングでは、Lowだとファイル間の依存関係を見落とすことがある。

いつHigh以上に上げるべきか

High以上に上げる判断は、品質リスクで決める。

場面推奨
仕様の読み替え、命名相談、単純なAPI確認既定値または軽量モデル
1〜2ファイルの小修正既定値から開始し、不足時だけ上げる
複数ファイルのリファクタリングHighを検討する
セキュリティレビュー、移行設計、障害原因分析High以上を検討する
長大なログやリポジトリ全体を読む作業先に範囲を絞り、それでも必要なら上げる

重要なのは、推論レベルを上げる前に対象範囲を絞ることだ。巨大な文脈を渡したままHighにすると、品質は上がるかもしれないが、AI Credits消費も増えやすい。

Lowを使うべき場面は存在するか

結論から言えば、存在するが限定的だ。

Lowが有効な場面:

  • 単純なコード補完やスニペット生成
  • 「この関数のシグネチャを教えて」のような即答型の質問
  • プロトタイピングでの高速フィードバックループ
  • ドキュメントコメントの自動生成

Lowを使うべきでない場面:

  • マルチファイルのリファクタリング
  • セキュリティレビューや脆弱性分析
  • DBスキーマ変更やフレームワーク移行
  • アーキテクチャの意思決定

要するに、「考える必要がないタスク」にはLowまたは既定値、「考えてほしいタスク」にはHigh以上という使い分けになる。

ただし、迷ったら常にHighではない。AI Creditsを抑えたいなら、まず既定値で試し、失敗時だけ推論レベルを上げる。

推奨設定

推奨は、常時Highではなく既定値を基準にしたタスク別切り替えだ。

  1. 通常のChat、軽い修正、説明生成は既定値。
  2. 設計判断、複数ファイル修正、原因分析ではHigh。
  3. セキュリティ監査、大規模移行、失敗時の再分析だけx-Highまたはextended thinking。
  4. 長文コンテキストとHigh以上を同時に使う前に、対象ファイルとログ範囲を削る。

モデルピッカーで切り替える

VS Code 1.113以降では、対応モデルのモデルピッカーからThinking Effortを切り替えられる。古い settings.json 固定ではなく、タスクごとにUIで確認する。

AI Creditsの節約まで含めて設計する場合は、GitHub Copilot AI Credits節約術も合わせて確認する。

まとめ

  • 推論レベルは同一モデルの「考える量」を制御する。モデル自体は変わらない
  • 2026年6月以降のAI Creditsでは、高い推論レベルほど消費が増え得る
  • 品質が必要な複雑作業ではHigh以上を使う価値がある
  • 日常作業は既定値で始め、失敗時だけ推論レベルを上げる

推論レベルは、品質を上げるためのつまみだ。同時に、AI Creditsを消費するつまみでもある。常時最大ではなく、タスクの失敗リスクに合わせて上げるのが現実的だ。

関連記事

参考リンク