コンテンツにスキップ

プロンプトインジェクション対策ガイド

攻撃タイプ分類

タイプ目的検出指標
指示上書き役割破壊"Ignore previous"ロール逸脱率
データ抽出秘匿情報誘導"Show system prompt"禁止トークン出現
コンテキスト汚染制御フロー変更埋め込み悪性挿入異常類似度スコア
鎖反転ガード回避メタ指示/自己言及逸脱Chain長

多層防御モデル

  1. 入力サニタイズ (制御トークン / URL / Base64)
  2. 埋め込み類似度による悪性候補フィルタ
  3. 二段階生成 (意図要約→許可→本生成)
  4. 出力ポリシーフィルタ (正規表現 + 分類モデル)
  5. 監査ログ記録 (prompthash, decisionreason)

検証メトリクス

指標定義目標
誤検出率良性が遮断< 3%
未検出率悪性を通過< 5%
平均遅延増防御追加遅延< 300ms

次アクション

  • テストコーパス自動生成スクリプト化
  • 悪性シグネチャ更新手順ドキュメント化

戻る: index.md