調査日: 2026-05-27 調査者: [email protected] 目的: Decision Pipeline が産出する意思決定の質を継続改善するために、何を測定・記録・分析すべきかの調査 調査モデル: Claude Opus 4.7 (Managed Agents) / OpenAI o3-deep-research / Gemini 2.5 Pro (Deep Research, Web UI 経由) 個別結果: Claude / OpenAI / Gemini

0. 調査の動機

現在の AuditRecord は最終集計値 (score, σ, verdict) に偏っており、 「なぜそのスコアになったか」「パイプライン変更が改善になったか」 「その決定は本当に良い決定だったか」を分析するデータが不足している。

1. 調査設問

  1. 意思決定の質を示す指標 (先行指標 / 遅行指標 / 代理指標)
  2. 盲点検出 (Gate 1) の有効性測定
  3. プロンプト改善のシグナル (低ボリュームでの A/B 比較)
  4. 段間の品質伝播 (inter-stage quality gaps)
  5. 意思決定者バイアスの追跡 (BIG5 連携)
  6. スキーマ設計と保持戦略

2. 調査結果

2.1 Claude Opus 4.7 (Managed Agents) — 236s, $1.08

核心的な指摘: 現在の AuditRecord は 4 つの時間軸のうち最初の 1 つしかカバーしていない。

時間軸質問現在の対応
実行は正しかったか?✅ latency, schema
分〜時間各ステージの出力は良かったか?⚠️ 部分的 (最終スコアのみ)
日〜週パイプライン変更は改善になったか?❌ なし
その決定は良い決定だったか?❌ なし

8 カテゴリの追加データを推奨:

  1. output quality vs decision quality の分離 — パイプラインの出力品質と、決定そのものの品質は別。学術研究の 66% が集計メトリクスのみに依存し、段階的な failure pattern を見逃している

  2. Per-stage diagnostic data (最大のギャップ) — stage ごとに input_hash, output_raw, parse_ok, model_id, tokens, cost を記録。OpenTelemetry span パターン

  3. Uncertainty / disagreement signals — Gate 4 の scoringStdDev だけでなく、per_criterion_variance (項目別ばらつき) と flip_rate (判定割れ率) を記録。「全員一致で間違える」vs「意見が割れて正解」の区別が重要

  4. Blind-spot detection effectiveness — findings の accepted/rejected/ignored を人間がタグ付け → precision/recall を計測。「accepted rate < 20% なら DA プロンプト改修」のフィードバックループ

  5. Inter-stage quality propagation — Gate 1 findings と body の Risks セクションの overlap 率を計算。「findings が body に反映されたか」を自動検証

  6. Prompt version experiment tracking — promptRefs を使って version 別スコア分布を比較。月 5-15 件でも sequential testing (CUSUM) で有意差検出可能

  7. Post-decision outcome trackingADR が後日 amended / superseded / bug-caused されたかの遡及記録。Git の ADR ファイル変更履歴から自動抽出可能

  8. Decision-maker bias fingerprint — 起案者の input パターン (文字数、代替案数、数値密度) と score の相関。BIG5 と組み合わせて「この起案者はコスト試算を書き忘れやすい」を検出

2.2 OpenAI o3-deep-research — 233s, $0.88

8 項目のデータ記録を推奨 (Claude とほぼ一致):

  1. Stage-by-Stage Outputs and Reasons — 各ステージの出力と推論理由を全て保存。中間トレースが pipeline weakness の診断に不可欠

  2. Quality Evaluation Scores & Criteria Breakdown — 10 項目 × 5 点の内訳を全サンプル分保存。項目別の recurring weak spots を特定

  3. Blind-Spot and Review Findings — findings の数・種類・severity 分布を集計。特定カテゴリ (security, scalability 等) の systematic oversight を検出

  4. Decision Consistency and Context Data — consistency check の CONFLICT/SUPERSEDE 頻度の集計。複数 ADR が同一問題で起案される process problem の検出

  5. Policy and Alignment Checks — policy violation の頻度追跡。特定ルールが頻繁にトリガーされるなら pipeline の上流で対処すべき

  6. User Feedback and Outcome Data — 人間が ADR を accepted/edited/rejected したかの記録。edit の diff が最も価値が高い。supersede された ADR は "false positive approval" としてタグ付け

  7. Pipeline Timing and Execution Data — 実行時間とトークン使用量の相関。異常に長い実行は品質低下の兆候

  8. Aggregated Trends and Version Comparisons — KPI の月次追跡。prompt 変更前後の A/B 比較。failure pattern の分類とテストケース化

2.3 Gemini 2.5 Pro (Deep Research, Web UI)

核心的な指摘: 現在の AuditRecord は「静的なスナップショット」であり、「なぜそうなったか」「モデルがどの程度の真の自信を持っていたか」を説明できない。「受動的な監視」から「能動的でデータ主導型の最適化」へ転換すべき。

Gemini 固有の概念:

  1. 偶然的 vs 認識論的不確実性の分離 — Gate 4 の N=5 Self-Consistency で scoringStdDev だけでなく「意味的エントロピー (Semantic Entropy)」を記録。5 サンプルの推論テキストを embedding → DBSCAN クラスタリングし、同じスコアでも推論経路が分岐しているかを検出

  2. KBV (Knows-But-Violates) 比率 — Gate 1 の findings を body_generation に注入したが、LLM が理解しつつも出力に反映しない割合を測定。制約注入配列 vs 制約充足マトリックスの比較で算出

  3. 複雑性のインフレーション — 対立する制約をなだめるために冗長で膨張した ADR が生成されるリスク。Markdown AST 深度とトークン情報密度で検出

  4. クロスモデル・セマンティック距離 — Gate 3 の 3 モデル annotations の embedding 間コサイン距離で認識論的不確実性を定量化

  5. レーベンシュタイン編集距離 — LLM 生成本文 vs 人間が最終コミットした本文の diff。プロンプト改善の究極の proxy 指標

  6. TelemetryRecord スキーマ — AuditRecord → TelemetryRecord に進化。ステージ別テレメトリ (triage / blindSpot / generation / scoring / review / feedbackLoop) の構造化 JSON を提案

3. サマリー (3 モデル完了)

3.1 3 モデル完全一致点

論点ClaudeOpenAIGemini
per-stage diagnostic data が最大ギャップ
10 項目スコア内訳の保存が必須✅ (Borda ランキング)
blind-spot findings の有効性測定✅ (KBV 比率)
post-decision outcome の遡及記録✅ (編集距離)
prompt version 別の A/B 比較基盤✅ (シャドウデプロイ)
user feedback (edit diff) が最も価値が高い✅ (レーベンシュタイン距離)

3.2 Claude 固有の指摘

  • per_criterion_variance + flip_rate — 項目別の scoring ばらつきと判定割れ率
  • input_hash — 同一入力の再現性検証に使用
  • sequential testing (CUSUM) — 月 5-15 件の低ボリュームでも有意差検出可能な統計手法
  • decision-maker bias fingerprint — 入力パターンとスコアの相関分析

3.3 OpenAI 固有の指摘

  • failure pattern の分類 → テストケース化 のフィードバックループ
  • consistency check の CONFLICT 頻度 で process problem を検出
  • policy violation の頻度追跡 で pipeline 上流の改善点を特定

3.4 Gemini 固有の指摘

  • 意味的エントロピー (Semantic Entropy) — N=5 の推論テキストを embedding → クラスタリングし、数値スコアが同じでも推論経路が分岐しているかを検出
  • KBV (Knows-But-Violates) 比率 — Gate 1 の制約注入 vs body での充足率を測定。プロンプトの "Lost in the middle" 問題を定量化
  • 複雑性のインフレーション — AST 深度 × トークン密度で冗長な ADR 生成を検出
  • クロスモデル・セマンティック距離 — Gate 3 の 3 モデル annotations の embedding 間距離で認識論的不確実性を定量化
  • Sycophancy (追従性) フラグ — 指示に過剰に従い不必要に複雑な応答を生成するパターンの自動検出
  • TelemetryRecord スキーマ — AuditRecord からの構造的進化を提案 (ステージ別テレメトリの JSON 構造)

3.5 優先度ランキング (3 モデル統合)

優先度データ理由
Must (今すぐ)input context (起案者の原文)全ての分析の基礎
MustblindSpotFindingsGate 1 の有効性測定
MustrejectionMsg差し戻しパターン分析
MustscoringDetail (10 項目内訳)項目別弱点の特定
Mustpipeline config (effort, budget)設定変更の効果測定
Should (商用化前)per_criterion_variancescoring 品質の深い分析
Shoulduser feedback (accepted/edited/rejected)人間の判断との比較
Shouldpost-decision outcome遅行指標
Shouldtoken usage per gateコスト最適化
Nice (将来)input_hash再現性検証
Nicedecision-maker bias fingerprintBIG5 連携
Niceinter-stage overlap rate段間品質伝播の自動検証

4. コスト

モデル実行時間コスト
Claude (Managed Agents)236s$1.08
OpenAI (o3-deep-research)233s$0.88
Gemini (Deep Research, Web UI)— (API タイムアウト 3 回、Web UI で実行)
合計$1.96 + Gemini Web UI