Gate 1 盲点検出の最適配置位置 — 3 モデル Deep Research 調査
調査日: 2026-05-27 調査者: [email protected] 目的: ADR-0071 の Gate 1 盲点検出エンジンを Pipeline 内のどこに配置すべきか、Deep Research API で 3 モデル並列調査 調査モデル: Claude Opus 4.7 (Managed Agents) / Gemini Deep Research (deep-research-preview-04-2026) / OpenAI o3-deep-research 個別結果: Claude / Gemini / OpenAI 関連 RQ: RQ-059 (盲点検出型への再定義)
0. 調査の動機
ADR-0071 は Gate 1 (body 生成前) の位置を暗黙的に引き継いでいるが、配置位置の検討が未実施。 body 生成前 (pre-gen) vs 生成後 (post-gen) のどちらが有効かを調査する。
1. 調査設問
- Pre-generation vs Post-generation: raw context を入力にするか、完成 ADR body を入力にするか
- Feedback loop: findings を body_generation に feed-in すべきか
- Parallel vs Sequential: body_generation と並列実行できるか
- Multi-stage: 生成前 + 生成後の 2 段構えは価値があるか
- Prior art: Constitutional AI / RLHF / debate / red-teaming での配置パターン
2. 調査結果
2.1 Claude Opus 4.7 (Managed Agents) — 298s, $1.36
推奨: Post-generation (body 生成後) + lightweight pre-generation concern-seeding
根拠:
- 全ての主要 LLM critique アーキテクチャ (Constitutional AI, Self-Refine, Reflexion, OpenAI critique-writing) が具体的成果物の後に critique を配置
- Klein の Pre-mortem は「具体的な計画」を前提とする — raw intent ではなく concrete plan に対して実行すべき
- Self-Refine は平均 +20% のタスク改善、OpenAI の critique-writing は 50% 多い欠陥を発見 (いずれも post-gen)
- pre-gen は hallucinated-risk 問題 (具体物がないため空振り) と prompt-bloating リスクがある
Decision Matrix (Claude): Hybrid (D) が 66 点で最高、Post-only (C) が 60 点、Pre-gen/Parallel が 41 点
2.2 Gemini Deep Research — 457s, $1.12
推奨: Pre-generation (body 生成前) → findings を body 生成の入力制約に組み込む
根拠:
- Post-gen は "generative ceiling" 問題 — 生成物の説得力に評価者が引きずられ、書かれていない概念の検出が構造的に困難
- 同一基盤モデルで生成→評価すると同じ入力で同じ盲点を持つ。真の敵対的検証には "epistemic reset" が必要
- Pre-gen は短い raw context で動作 → トークン効率が良い。body を 1 回だけ生成すれば済む
- Post-gen の iterative loop は表面的なテキスト修正に終わり、深い構造的欠陥を修正できない
Decision Matrix (Gemini):
| 基準 | Pre-gen (Gate 1) | Post-gen | Multi-Stage |
|---|---|---|---|
| Strategic Accuracy | High | Low | High |
| Actionability | High | Low | High |
| Token Efficiency | High | Low | Medium |
| False Positives | Medium | High | Low |
| Latency | Optimized | Degraded | Optimized |
2.3 OpenAI o3-deep-research — 475s, $1.69
推奨: Hybrid (Pre + Post)。Critical mode は 2 段階、Light mode は post-gen のみ
根拠:
- Post-gen が検出精度は高い — 完成 draft の具体的な欠落を指摘できる ("it never mentions X risk")
- Pre-gen は findings を body 生成に feed-in でき、1 回の生成で盲点をカバーできる
- Parallelization は可能だが、integration に revision step が必要
- "Generate → Critique → Improve" の 3 段テンプレートが多くの先行事例で有効
- Anthropic 自身の multi-agent coding で Planner (pre-gen critique 相当) を使用
Decision Matrix (OpenAI):
| 基準 | Pre-gen | Post-gen | Two-Stage |
|---|---|---|---|
| Detection Accuracy | Moderate | High | Very High |
| Actionability | High (proactive) | High (reactive) | Highest |
| False Positives | Higher | Lower | Balanced |
| Cost | Lower | Higher | Highest |
| Latency | Short | Medium | Longer |
3. サマリー(3-vendor 統合結論)
3.1 表面的な不一致
| Claude | Gemini | OpenAI | |
|---|---|---|---|
| 推奨 | Post-gen | Pre-gen | Hybrid |
3.2 不一致の根本原因
3 モデルは**「何を critique するか」の前提が異なる**:
- Claude: critique は具体的成果物に対して行うもの → post-gen が自然
- Gemini: critique は前提・戦略に対して行うもの → pre-gen が自然。post-gen は "generative ceiling" で盲点を共有する
- OpenAI: 両方の critique が必要 → hybrid
3.3 真の一致点
よく読むと 3 者とも hybrid に収束:
- Claude: 推奨は post-gen だが "with a lightweight pre-generation concern-seeding pass" と記載。Decision matrix で hybrid (Option D) が最高点
- Gemini: 推奨は pre-gen だが Multi-Stage を「Low FP / High Accuracy」と最高評価
- OpenAI: 最初から hybrid 推奨
3 者一致: 重い critique は 1 箇所に置く (コスト制約)。軽い complement を反対側にも置くのが理想。どちら側に重い方を置くかで意見が分かれた。
3.4 bizlp 向け結論
bizlp の Pipeline には既に Gate 3 (Parallel Review) と Gate 4 (Scoring) が body 生成後に存在する。これらは post-gen critique の役割を果たしている (ただし「盲点検出」ではなく「品質チェック」)。
採用判断: Gate 1 の盲点検出を pre-gen に配置 し、findings を body_generation に feed-in する。理由:
- Gate 3/4 が post-gen critique を既に担当 → 2 段構えが自然に成立
- Gemini の "generative ceiling" 指摘は妥当 — pre-gen なら body に引きずられない
- Pre-gen findings → body feed-in → Gate 3/4 post-gen review のフローが最も効率的
残課題: Gate 3/4 は「品質チェック」であって「盲点検出」ではない。Gate 3 のプロンプトに「ADR に記載されていない観点の指摘」を追加するかは別途検討。
4. コスト
| モデル | 実行時間 | トークン | コスト |
|---|---|---|---|
| Claude (Managed Agents) | 298s | input 14 / output 18,081 | $1.36 |
| Gemini (Deep Research) | 457s | input 402,014 / output 23,260 | $1.12 |
| OpenAI (o3-deep-research) | 475s | input 48,695 / output 30,186 | $1.69 |
| 合計 | $4.17 |