LLMワークロード性能最適化¶
指標マトリクス¶
| 軸 | 例 | 計測方法 | 典型トレードオフ |
|---|---|---|---|
| レイテンシ | p95応答 | 時刻計測 | 思考展開深度 vs 時間 |
| コスト | $/リクエスト | トークン課金集計 | モデルサイズ vs 品質 |
| 品質 | 正答率/構造化率 | 評価セット自動採点 | スピード優先で低下 |
| 安全 | 有害生成率 | フィルタログ | ガード⇒遅延 |
最適化レバー¶
| レバー | 具体策 | 注意 |
|---|---|---|
| 入力削減 | コンテキスト要約/埋め込み検索 | 要約劣化 |
| 出力削減 | JSONスキーマ制約 | 柔軟性低下 |
| 並列化 | マルチサブタスク | レート制限 |
| キャッシュ | ベクトル/レスポンス | ストレージコスト |
| モデル選択 | ルーティング (軽→重) | 判定誤り |
戻る: index.md