意思決定パイプラインの品質改善に必要なデータ記録戦略 — 3 モデル Deep Research 調査

調査日: 2026-05-27 調査者: [email protected] 目的: Decision Pipeline が産出する意思決定の質を継続改善するために、何を測定・記録・分析すべきかの調査 調査モデル: Claude Opus 4.7 (Managed Agents) / OpenAI o3-deep-research / Gemini 2.5 Pro (Deep Research, Web UI 経由) 個別結果: Claude / OpenAI / Gemini

0. 調査の動機

現在の AuditRecord は最終集計値 (score, σ, verdict) に偏っており、「なぜそのスコアになったか」「パイプライン変更が改善になったか」「その決定は本当に良い決定だったか」を分析するデータが不足している。

1. 調査設問

意思決定の質を示す指標 (先行指標 / 遅行指標 / 代理指標)
盲点検出 (Gate 1) の有効性測定
プロンプト改善のシグナル (低ボリュームでの A/B 比較)
段間の品質伝播 (inter-stage quality gaps)
意思決定者バイアスの追跡 (BIG5 連携)
スキーマ設計と保持戦略

2. 調査結果

2.1 Claude Opus 4.7 (Managed Agents) — 236s, $1.08

核心的な指摘: 現在の AuditRecord は 4 つの時間軸のうち最初の 1 つしかカバーしていない。

時間軸	質問	現在の対応
秒	実行は正しかったか？	✅ latency, schema
分〜時間	各ステージの出力は良かったか？	⚠️ 部分的 (最終スコアのみ)
日〜週	パイプライン変更は改善になったか？	❌ なし
月	その決定は良い決定だったか？	❌ なし

8 カテゴリの追加データを推奨:

output quality vs decision quality の分離 — パイプラインの出力品質と、決定そのものの品質は別。学術研究の 66% が集計メトリクスのみに依存し、段階的な failure pattern を見逃している
Per-stage diagnostic data (最大のギャップ) — stage ごとに input_hash, output_raw, parse_ok, model_id, tokens, cost を記録。OpenTelemetry span パターン
Uncertainty / disagreement signals — Gate 4 の scoringStdDev だけでなく、per_criterion_variance (項目別ばらつき) と flip_rate (判定割れ率) を記録。「全員一致で間違える」vs「意見が割れて正解」の区別が重要
Blind-spot detection effectiveness — findings の accepted/rejected/ignored を人間がタグ付け → precision/recall を計測。「accepted rate < 20% なら DA プロンプト改修」のフィードバックループ
Inter-stage quality propagation — Gate 1 findings と body の Risks セクションの overlap 率を計算。「findings が body に反映されたか」を自動検証
Prompt version experiment tracking — promptRefs を使って version 別スコア分布を比較。月 5-15 件でも sequential testing (CUSUM) で有意差検出可能
Post-decision outcome tracking — ADR が後日 amended / superseded / bug-caused されたかの遡及記録。Git の ADR ファイル変更履歴から自動抽出可能
Decision-maker bias fingerprint — 起案者の input パターン (文字数、代替案数、数値密度) と score の相関。BIG5 と組み合わせて「この起案者はコスト試算を書き忘れやすい」を検出

2.2 OpenAI o3-deep-research — 233s, $0.88

8 項目のデータ記録を推奨 (Claude とほぼ一致):

Stage-by-Stage Outputs and Reasons — 各ステージの出力と推論理由を全て保存。中間トレースが pipeline weakness の診断に不可欠
Quality Evaluation Scores & Criteria Breakdown — 10 項目 × 5 点の内訳を全サンプル分保存。項目別の recurring weak spots を特定
Blind-Spot and Review Findings — findings の数・種類・severity 分布を集計。特定カテゴリ (security, scalability 等) の systematic oversight を検出
Decision Consistency and Context Data — consistency check の CONFLICT/SUPERSEDE 頻度の集計。複数 ADR が同一問題で起案される process problem の検出
Policy and Alignment Checks — policy violation の頻度追跡。特定ルールが頻繁にトリガーされるなら pipeline の上流で対処すべき
User Feedback and Outcome Data — 人間が ADR を accepted/edited/rejected したかの記録。edit の diff が最も価値が高い。supersede された ADR は "false positive approval" としてタグ付け
Pipeline Timing and Execution Data — 実行時間とトークン使用量の相関。異常に長い実行は品質低下の兆候
Aggregated Trends and Version Comparisons — KPI の月次追跡。prompt 変更前後の A/B 比較。failure pattern の分類とテストケース化

2.3 Gemini 2.5 Pro (Deep Research, Web UI)

核心的な指摘: 現在の AuditRecord は「静的なスナップショット」であり、「なぜそうなったか」「モデルがどの程度の真の自信を持っていたか」を説明できない。「受動的な監視」から「能動的でデータ主導型の最適化」へ転換すべき。

Gemini 固有の概念:

偶然的 vs 認識論的不確実性の分離 — Gate 4 の N=5 Self-Consistency で scoringStdDev だけでなく「意味的エントロピー (Semantic Entropy)」を記録。5 サンプルの推論テキストを embedding → DBSCAN クラスタリングし、同じスコアでも推論経路が分岐しているかを検出
KBV (Knows-But-Violates) 比率 — Gate 1 の findings を body_generation に注入したが、LLM が理解しつつも出力に反映しない割合を測定。制約注入配列 vs 制約充足マトリックスの比較で算出
複雑性のインフレーション — 対立する制約をなだめるために冗長で膨張した ADR が生成されるリスク。Markdown AST 深度とトークン情報密度で検出
クロスモデル・セマンティック距離 — Gate 3 の 3 モデル annotations の embedding 間コサイン距離で認識論的不確実性を定量化
レーベンシュタイン編集距離 — LLM 生成本文 vs 人間が最終コミットした本文の diff。プロンプト改善の究極の proxy 指標
TelemetryRecord スキーマ — AuditRecord → TelemetryRecord に進化。ステージ別テレメトリ (triage / blindSpot / generation / scoring / review / feedbackLoop) の構造化 JSON を提案

3. サマリー (3 モデル完了)

3.1 3 モデル完全一致点

論点	Claude	OpenAI	Gemini
per-stage diagnostic data が最大ギャップ	✅	✅	✅
10 項目スコア内訳の保存が必須	✅	✅	✅ (Borda ランキング)
blind-spot findings の有効性測定	✅	✅	✅ (KBV 比率)
post-decision outcome の遡及記録	✅	✅	✅ (編集距離)
prompt version 別の A/B 比較基盤	✅	✅	✅ (シャドウデプロイ)
user feedback (edit diff) が最も価値が高い	✅	✅	✅ (レーベンシュタイン距離)

3.2 Claude 固有の指摘

per_criterion_variance + flip_rate — 項目別の scoring ばらつきと判定割れ率
input_hash — 同一入力の再現性検証に使用
sequential testing (CUSUM) — 月 5-15 件の低ボリュームでも有意差検出可能な統計手法
decision-maker bias fingerprint — 入力パターンとスコアの相関分析

3.3 OpenAI 固有の指摘

failure pattern の分類 → テストケース化 のフィードバックループ
consistency check の CONFLICT 頻度 で process problem を検出
policy violation の頻度追跡 で pipeline 上流の改善点を特定

3.4 Gemini 固有の指摘

意味的エントロピー (Semantic Entropy) — N=5 の推論テキストを embedding → クラスタリングし、数値スコアが同じでも推論経路が分岐しているかを検出
KBV (Knows-But-Violates) 比率 — Gate 1 の制約注入 vs body での充足率を測定。プロンプトの "Lost in the middle" 問題を定量化
複雑性のインフレーション — AST 深度 × トークン密度で冗長な ADR 生成を検出
クロスモデル・セマンティック距離 — Gate 3 の 3 モデル annotations の embedding 間距離で認識論的不確実性を定量化
Sycophancy (追従性) フラグ — 指示に過剰に従い不必要に複雑な応答を生成するパターンの自動検出
TelemetryRecord スキーマ — AuditRecord からの構造的進化を提案 (ステージ別テレメトリの JSON 構造)

3.5 優先度ランキング (3 モデル統合)

優先度	データ	理由
Must (今すぐ)	input context (起案者の原文)	全ての分析の基礎
Must	blindSpotFindings	Gate 1 の有効性測定
Must	rejectionMsg	差し戻しパターン分析
Must	scoringDetail (10 項目内訳)	項目別弱点の特定
Must	pipeline config (effort, budget)	設定変更の効果測定
Should (商用化前)	per_criterion_variance	scoring 品質の深い分析
Should	user feedback (accepted/edited/rejected)	人間の判断との比較
Should	post-decision outcome	遅行指標
Should	token usage per gate	コスト最適化
Nice (将来)	input_hash	再現性検証
Nice	decision-maker bias fingerprint	BIG5 連携
Nice	inter-stage overlap rate	段間品質伝播の自動検証

4. コスト

モデル	実行時間	コスト
Claude (Managed Agents)	236s	$1.08
OpenAI (o3-deep-research)	233s	$0.88
Gemini (Deep Research, Web UI)	—	— (API タイムアウト 3 回、Web UI で実行)
合計		$1.96 + Gemini Web UI