プロンプトインジェクション対策ガイド¶
攻撃タイプ分類¶
| タイプ | 目的 | 例 | 検出指標 |
|---|---|---|---|
| 指示上書き | 役割破壊 | "Ignore previous" | ロール逸脱率 |
| データ抽出 | 秘匿情報誘導 | "Show system prompt" | 禁止トークン出現 |
| コンテキスト汚染 | 制御フロー変更 | 埋め込み悪性挿入 | 異常類似度スコア |
| 鎖反転 | ガード回避 | メタ指示/自己言及 | 逸脱Chain長 |
多層防御モデル¶
- 入力サニタイズ (制御トークン / URL / Base64)
- 埋め込み類似度による悪性候補フィルタ
- 二段階生成 (意図要約→許可→本生成)
- 出力ポリシーフィルタ (正規表現 + 分類モデル)
- 監査ログ記録 (prompthash, decisionreason)
検証メトリクス¶
| 指標 | 定義 | 目標 |
|---|---|---|
| 誤検出率 | 良性が遮断 | < 3% |
| 未検出率 | 悪性を通過 | < 5% |
| 平均遅延増 | 防御追加遅延 | < 300ms |
次アクション¶
- テストコーパス自動生成スクリプト化
- 悪性シグネチャ更新手順ドキュメント化
戻る: index.md