意思決定パイプラインの品質改善に必要なデータ記録戦略 — 3 モデル Deep Research 調査
調査日: 2026-05-27 調査者: [email protected] 目的: Decision Pipeline が産出する意思決定の質を継続改善するために、何を測定・記録・分析すべきかの調査 調査モデル: Claude Opus 4.7 (Managed Agents) / OpenAI o3-deep-research / Gemini 2.5 Pro (Deep Research, Web UI 経由) 個別結果: Claude / OpenAI / Gemini
0. 調査の動機
現在の AuditRecord は最終集計値 (score, σ, verdict) に偏っており、 「なぜそのスコアになったか」「パイプライン変更が改善になったか」 「その決定は本当に良い決定だったか」を分析するデータが不足している。
1. 調査設問
- 意思決定の質を示す指標 (先行指標 / 遅行指標 / 代理指標)
- 盲点検出 (Gate 1) の有効性測定
- プロンプト改善のシグナル (低ボリュームでの A/B 比較)
- 段間の品質伝播 (inter-stage quality gaps)
- 意思決定者バイアスの追跡 (BIG5 連携)
- スキーマ設計と保持戦略
2. 調査結果
2.1 Claude Opus 4.7 (Managed Agents) — 236s, $1.08
核心的な指摘: 現在の AuditRecord は 4 つの時間軸のうち最初の 1 つしかカバーしていない。
| 時間軸 | 質問 | 現在の対応 |
|---|---|---|
| 秒 | 実行は正しかったか? | ✅ latency, schema |
| 分〜時間 | 各ステージの出力は良かったか? | ⚠️ 部分的 (最終スコアのみ) |
| 日〜週 | パイプライン変更は改善になったか? | ❌ なし |
| 月 | その決定は良い決定だったか? | ❌ なし |
8 カテゴリの追加データを推奨:
output quality vs decision quality の分離 — パイプラインの出力品質と、決定そのものの品質は別。学術研究の 66% が集計メトリクスのみに依存し、段階的な failure pattern を見逃している
Per-stage diagnostic data (最大のギャップ) — stage ごとに input_hash, output_raw, parse_ok, model_id, tokens, cost を記録。OpenTelemetry span パターン
Uncertainty / disagreement signals — Gate 4 の scoringStdDev だけでなく、per_criterion_variance (項目別ばらつき) と flip_rate (判定割れ率) を記録。「全員一致で間違える」vs「意見が割れて正解」の区別が重要
Blind-spot detection effectiveness — findings の accepted/rejected/ignored を人間がタグ付け → precision/recall を計測。「accepted rate < 20% なら DA プロンプト改修」のフィードバックループ
Inter-stage quality propagation — Gate 1 findings と body の Risks セクションの overlap 率を計算。「findings が body に反映されたか」を自動検証
Prompt version experiment tracking — promptRefs を使って version 別スコア分布を比較。月 5-15 件でも sequential testing (CUSUM) で有意差検出可能
Post-decision outcome tracking — ADR が後日 amended / superseded / bug-caused されたかの遡及記録。Git の ADR ファイル変更履歴から自動抽出可能
Decision-maker bias fingerprint — 起案者の input パターン (文字数、代替案数、数値密度) と score の相関。BIG5 と組み合わせて「この起案者はコスト試算を書き忘れやすい」を検出
2.2 OpenAI o3-deep-research — 233s, $0.88
8 項目のデータ記録を推奨 (Claude とほぼ一致):
Stage-by-Stage Outputs and Reasons — 各ステージの出力と推論理由を全て保存。中間トレースが pipeline weakness の診断に不可欠
Quality Evaluation Scores & Criteria Breakdown — 10 項目 × 5 点の内訳を全サンプル分保存。項目別の recurring weak spots を特定
Blind-Spot and Review Findings — findings の数・種類・severity 分布を集計。特定カテゴリ (security, scalability 等) の systematic oversight を検出
Decision Consistency and Context Data — consistency check の CONFLICT/SUPERSEDE 頻度の集計。複数 ADR が同一問題で起案される process problem の検出
Policy and Alignment Checks — policy violation の頻度追跡。特定ルールが頻繁にトリガーされるなら pipeline の上流で対処すべき
User Feedback and Outcome Data — 人間が ADR を accepted/edited/rejected したかの記録。edit の diff が最も価値が高い。supersede された ADR は "false positive approval" としてタグ付け
Pipeline Timing and Execution Data — 実行時間とトークン使用量の相関。異常に長い実行は品質低下の兆候
Aggregated Trends and Version Comparisons — KPI の月次追跡。prompt 変更前後の A/B 比較。failure pattern の分類とテストケース化
2.3 Gemini 2.5 Pro (Deep Research, Web UI)
核心的な指摘: 現在の AuditRecord は「静的なスナップショット」であり、「なぜそうなったか」「モデルがどの程度の真の自信を持っていたか」を説明できない。「受動的な監視」から「能動的でデータ主導型の最適化」へ転換すべき。
Gemini 固有の概念:
偶然的 vs 認識論的不確実性の分離 — Gate 4 の N=5 Self-Consistency で scoringStdDev だけでなく「意味的エントロピー (Semantic Entropy)」を記録。5 サンプルの推論テキストを embedding → DBSCAN クラスタリングし、同じスコアでも推論経路が分岐しているかを検出
KBV (Knows-But-Violates) 比率 — Gate 1 の findings を body_generation に注入したが、LLM が理解しつつも出力に反映しない割合を測定。制約注入配列 vs 制約充足マトリックスの比較で算出
複雑性のインフレーション — 対立する制約をなだめるために冗長で膨張した ADR が生成されるリスク。Markdown AST 深度とトークン情報密度で検出
クロスモデル・セマンティック距離 — Gate 3 の 3 モデル annotations の embedding 間コサイン距離で認識論的不確実性を定量化
レーベンシュタイン編集距離 — LLM 生成本文 vs 人間が最終コミットした本文の diff。プロンプト改善の究極の proxy 指標
TelemetryRecord スキーマ — AuditRecord → TelemetryRecord に進化。ステージ別テレメトリ (triage / blindSpot / generation / scoring / review / feedbackLoop) の構造化 JSON を提案
3. サマリー (3 モデル完了)
3.1 3 モデル完全一致点
| 論点 | Claude | OpenAI | Gemini |
|---|---|---|---|
| per-stage diagnostic data が最大ギャップ | ✅ | ✅ | ✅ |
| 10 項目スコア内訳の保存が必須 | ✅ | ✅ | ✅ (Borda ランキング) |
| blind-spot findings の有効性測定 | ✅ | ✅ | ✅ (KBV 比率) |
| post-decision outcome の遡及記録 | ✅ | ✅ | ✅ (編集距離) |
| prompt version 別の A/B 比較基盤 | ✅ | ✅ | ✅ (シャドウデプロイ) |
| user feedback (edit diff) が最も価値が高い | ✅ | ✅ | ✅ (レーベンシュタイン距離) |
3.2 Claude 固有の指摘
- per_criterion_variance + flip_rate — 項目別の scoring ばらつきと判定割れ率
- input_hash — 同一入力の再現性検証に使用
- sequential testing (CUSUM) — 月 5-15 件の低ボリュームでも有意差検出可能な統計手法
- decision-maker bias fingerprint — 入力パターンとスコアの相関分析
3.3 OpenAI 固有の指摘
- failure pattern の分類 → テストケース化 のフィードバックループ
- consistency check の CONFLICT 頻度 で process problem を検出
- policy violation の頻度追跡 で pipeline 上流の改善点を特定
3.4 Gemini 固有の指摘
- 意味的エントロピー (Semantic Entropy) — N=5 の推論テキストを embedding → クラスタリングし、数値スコアが同じでも推論経路が分岐しているかを検出
- KBV (Knows-But-Violates) 比率 — Gate 1 の制約注入 vs body での充足率を測定。プロンプトの "Lost in the middle" 問題を定量化
- 複雑性のインフレーション — AST 深度 × トークン密度で冗長な ADR 生成を検出
- クロスモデル・セマンティック距離 — Gate 3 の 3 モデル annotations の embedding 間距離で認識論的不確実性を定量化
- Sycophancy (追従性) フラグ — 指示に過剰に従い不必要に複雑な応答を生成するパターンの自動検出
- TelemetryRecord スキーマ — AuditRecord からの構造的進化を提案 (ステージ別テレメトリの JSON 構造)
3.5 優先度ランキング (3 モデル統合)
| 優先度 | データ | 理由 |
|---|---|---|
| Must (今すぐ) | input context (起案者の原文) | 全ての分析の基礎 |
| Must | blindSpotFindings | Gate 1 の有効性測定 |
| Must | rejectionMsg | 差し戻しパターン分析 |
| Must | scoringDetail (10 項目内訳) | 項目別弱点の特定 |
| Must | pipeline config (effort, budget) | 設定変更の効果測定 |
| Should (商用化前) | per_criterion_variance | scoring 品質の深い分析 |
| Should | user feedback (accepted/edited/rejected) | 人間の判断との比較 |
| Should | post-decision outcome | 遅行指標 |
| Should | token usage per gate | コスト最適化 |
| Nice (将来) | input_hash | 再現性検証 |
| Nice | decision-maker bias fingerprint | BIG5 連携 |
| Nice | inter-stage overlap rate | 段間品質伝播の自動検証 |
4. コスト
| モデル | 実行時間 | コスト |
|---|---|---|
| Claude (Managed Agents) | 236s | $1.08 |
| OpenAI (o3-deep-research) | 233s | $0.88 |
| Gemini (Deep Research, Web UI) | — | — (API タイムアウト 3 回、Web UI で実行) |
| 合計 | $1.96 + Gemini Web UI |