コンテンツにスキップ

LLMデバッグ / 診断

主要障害タイプ

種別症状代表計測初動質問
出力逸脱構造壊れJSONパース失敗率スキーマ最新版?
推論誤り論理破綻評価セット誤答率Chain-of-Thought不足?
コンテキスト漏れ必要情報未参照ヒット率検索トップk適切?
ガード失敗禁則生成フィルタログルール明示度?

観察性スタック

  1. Prompt差分保存 (hash付き)
  2. 入出力トークン統計
  3. 評価サンプル再実行
  4. 事後解析 (クラスタリング)

戻る: index.md