コンテンツにスキップ

LLMワークロード性能最適化

指標マトリクス

計測方法典型トレードオフ
レイテンシp95応答時刻計測思考展開深度 vs 時間
コスト$/リクエストトークン課金集計モデルサイズ vs 品質
品質正答率/構造化率評価セット自動採点スピード優先で低下
安全有害生成率フィルタログガード⇒遅延

最適化レバー

レバー具体策注意
入力削減コンテキスト要約/埋め込み検索要約劣化
出力削減JSONスキーマ制約柔軟性低下
並列化マルチサブタスクレート制限
キャッシュベクトル/レスポンスストレージコスト
モデル選択ルーティング (軽→重)判定誤り

戻る: index.md