調査日: 2026-05-27 調査者: [email protected] 目的: ADR-0071 の Gate 1 盲点検出エンジンを Pipeline 内のどこに配置すべきか、Deep Research API で 3 モデル並列調査 調査モデル: Claude Opus 4.7 (Managed Agents) / Gemini Deep Research (deep-research-preview-04-2026) / OpenAI o3-deep-research 個別結果: Claude / Gemini / OpenAI 関連 RQ: RQ-059 (盲点検出型への再定義)

0. 調査の動機

ADR-0071 は Gate 1 (body 生成前) の位置を暗黙的に引き継いでいるが、配置位置の検討が未実施。 body 生成前 (pre-gen) vs 生成後 (post-gen) のどちらが有効かを調査する。

1. 調査設問

  1. Pre-generation vs Post-generation: raw context を入力にするか、完成 ADR body を入力にするか
  2. Feedback loop: findings を body_generation に feed-in すべきか
  3. Parallel vs Sequential: body_generation と並列実行できるか
  4. Multi-stage: 生成前 + 生成後の 2 段構えは価値があるか
  5. Prior art: Constitutional AI / RLHF / debate / red-teaming での配置パターン

2. 調査結果

2.1 Claude Opus 4.7 (Managed Agents) — 298s, $1.36

推奨: Post-generation (body 生成後) + lightweight pre-generation concern-seeding

根拠:

  • 全ての主要 LLM critique アーキテクチャ (Constitutional AI, Self-Refine, Reflexion, OpenAI critique-writing) が具体的成果物の後に critique を配置
  • Klein の Pre-mortem は「具体的な計画」を前提とする — raw intent ではなく concrete plan に対して実行すべき
  • Self-Refine は平均 +20% のタスク改善、OpenAI の critique-writing は 50% 多い欠陥を発見 (いずれも post-gen)
  • pre-gen は hallucinated-risk 問題 (具体物がないため空振り) と prompt-bloating リスクがある

Decision Matrix (Claude): Hybrid (D) が 66 点で最高、Post-only (C) が 60 点、Pre-gen/Parallel が 41 点

2.2 Gemini Deep Research — 457s, $1.12

推奨: Pre-generation (body 生成前) → findings を body 生成の入力制約に組み込む

根拠:

  • Post-gen は "generative ceiling" 問題 — 生成物の説得力に評価者が引きずられ、書かれていない概念の検出が構造的に困難
  • 同一基盤モデルで生成→評価すると同じ入力で同じ盲点を持つ。真の敵対的検証には "epistemic reset" が必要
  • Pre-gen は短い raw context で動作 → トークン効率が良い。body を 1 回だけ生成すれば済む
  • Post-gen の iterative loop は表面的なテキスト修正に終わり、深い構造的欠陥を修正できない

Decision Matrix (Gemini):

基準Pre-gen (Gate 1)Post-genMulti-Stage
Strategic AccuracyHighLowHigh
ActionabilityHighLowHigh
Token EfficiencyHighLowMedium
False PositivesMediumHighLow
LatencyOptimizedDegradedOptimized

2.3 OpenAI o3-deep-research — 475s, $1.69

推奨: Hybrid (Pre + Post)。Critical mode は 2 段階、Light mode は post-gen のみ

根拠:

  • Post-gen が検出精度は高い — 完成 draft の具体的な欠落を指摘できる ("it never mentions X risk")
  • Pre-gen は findings を body 生成に feed-in でき、1 回の生成で盲点をカバーできる
  • Parallelization は可能だが、integration に revision step が必要
  • "Generate → Critique → Improve" の 3 段テンプレートが多くの先行事例で有効
  • Anthropic 自身の multi-agent coding で Planner (pre-gen critique 相当) を使用

Decision Matrix (OpenAI):

基準Pre-genPost-genTwo-Stage
Detection AccuracyModerateHighVery High
ActionabilityHigh (proactive)High (reactive)Highest
False PositivesHigherLowerBalanced
CostLowerHigherHighest
LatencyShortMediumLonger

3. サマリー(3-vendor 統合結論)

3.1 表面的な不一致

ClaudeGeminiOpenAI
推奨Post-genPre-genHybrid

3.2 不一致の根本原因

3 モデルは**「何を critique するか」の前提が異なる**:

  • Claude: critique は具体的成果物に対して行うもの → post-gen が自然
  • Gemini: critique は前提・戦略に対して行うもの → pre-gen が自然。post-gen は "generative ceiling" で盲点を共有する
  • OpenAI: 両方の critique が必要 → hybrid

3.3 真の一致点

よく読むと 3 者とも hybrid に収束:

  • Claude: 推奨は post-gen だが "with a lightweight pre-generation concern-seeding pass" と記載。Decision matrix で hybrid (Option D) が最高点
  • Gemini: 推奨は pre-gen だが Multi-Stage を「Low FP / High Accuracy」と最高評価
  • OpenAI: 最初から hybrid 推奨

3 者一致: 重い critique は 1 箇所に置く (コスト制約)。軽い complement を反対側にも置くのが理想。どちら側に重い方を置くかで意見が分かれた

3.4 bizlp 向け結論

bizlp の Pipeline には既に Gate 3 (Parallel Review) と Gate 4 (Scoring) が body 生成後に存在する。これらは post-gen critique の役割を果たしている (ただし「盲点検出」ではなく「品質チェック」)。

採用判断: Gate 1 の盲点検出を pre-gen に配置 し、findings を body_generation に feed-in する。理由:

  1. Gate 3/4 が post-gen critique を既に担当 → 2 段構えが自然に成立
  2. Gemini の "generative ceiling" 指摘は妥当 — pre-gen なら body に引きずられない
  3. Pre-gen findings → body feed-in → Gate 3/4 post-gen review のフローが最も効率的

残課題: Gate 3/4 は「品質チェック」であって「盲点検出」ではない。Gate 3 のプロンプトに「ADR に記載されていない観点の指摘」を追加するかは別途検討。

4. コスト

モデル実行時間トークンコスト
Claude (Managed Agents)298sinput 14 / output 18,081$1.36
Gemini (Deep Research)457sinput 402,014 / output 23,260$1.12
OpenAI (o3-deep-research)475sinput 48,695 / output 30,186$1.69
合計$4.17