Gate 1 盲点検出の最適配置位置 — 3 モデル Deep Research 調査

調査日: 2026-05-27 調査者: [email protected] 目的: ADR-0071 の Gate 1 盲点検出エンジンを Pipeline 内のどこに配置すべきか、Deep Research API で 3 モデル並列調査 調査モデル: Claude Opus 4.7 (Managed Agents) / Gemini Deep Research (deep-research-preview-04-2026) / OpenAI o3-deep-research 個別結果: Claude / Gemini / OpenAI 関連 RQ: RQ-059 (盲点検出型への再定義)

0. 調査の動機

ADR-0071 は Gate 1 (body 生成前) の位置を暗黙的に引き継いでいるが、配置位置の検討が未実施。 body 生成前 (pre-gen) vs 生成後 (post-gen) のどちらが有効かを調査する。

1. 調査設問

Pre-generation vs Post-generation: raw context を入力にするか、完成 ADR body を入力にするか
Feedback loop: findings を body_generation に feed-in すべきか
Parallel vs Sequential: body_generation と並列実行できるか
Multi-stage: 生成前 + 生成後の 2 段構えは価値があるか
Prior art: Constitutional AI / RLHF / debate / red-teaming での配置パターン

2. 調査結果

2.1 Claude Opus 4.7 (Managed Agents) — 298s, $1.36

推奨: Post-generation (body 生成後) + lightweight pre-generation concern-seeding

根拠:

全ての主要 LLM critique アーキテクチャ (Constitutional AI, Self-Refine, Reflexion, OpenAI critique-writing) が具体的成果物の後に critique を配置
Klein の Pre-mortem は「具体的な計画」を前提とする — raw intent ではなく concrete plan に対して実行すべき
Self-Refine は平均 +20% のタスク改善、OpenAI の critique-writing は 50% 多い欠陥を発見 (いずれも post-gen)
pre-gen は hallucinated-risk 問題 (具体物がないため空振り) と prompt-bloating リスクがある

Decision Matrix (Claude): Hybrid (D) が 66 点で最高、Post-only (C) が 60 点、Pre-gen/Parallel が 41 点

2.2 Gemini Deep Research — 457s, $1.12

推奨: Pre-generation (body 生成前) → findings を body 生成の入力制約に組み込む

根拠:

Post-gen は "generative ceiling" 問題 — 生成物の説得力に評価者が引きずられ、書かれていない概念の検出が構造的に困難
同一基盤モデルで生成→評価すると同じ入力で同じ盲点を持つ。真の敵対的検証には "epistemic reset" が必要
Pre-gen は短い raw context で動作 → トークン効率が良い。body を 1 回だけ生成すれば済む
Post-gen の iterative loop は表面的なテキスト修正に終わり、深い構造的欠陥を修正できない

Decision Matrix (Gemini):

基準	Pre-gen (Gate 1)	Post-gen	Multi-Stage
Strategic Accuracy	High	Low	High
Actionability	High	Low	High
Token Efficiency	High	Low	Medium
False Positives	Medium	High	Low
Latency	Optimized	Degraded	Optimized

2.3 OpenAI o3-deep-research — 475s, $1.69

推奨: Hybrid (Pre + Post)。Critical mode は 2 段階、Light mode は post-gen のみ

根拠:

Post-gen が検出精度は高い — 完成 draft の具体的な欠落を指摘できる ("it never mentions X risk")
Pre-gen は findings を body 生成に feed-in でき、1 回の生成で盲点をカバーできる
Parallelization は可能だが、integration に revision step が必要
"Generate → Critique → Improve" の 3 段テンプレートが多くの先行事例で有効
Anthropic 自身の multi-agent coding で Planner (pre-gen critique 相当) を使用

Decision Matrix (OpenAI):

基準	Pre-gen	Post-gen	Two-Stage
Detection Accuracy	Moderate	High	Very High
Actionability	High (proactive)	High (reactive)	Highest
False Positives	Higher	Lower	Balanced
Cost	Lower	Higher	Highest
Latency	Short	Medium	Longer

3. サマリー（3-vendor 統合結論）

3.1 表面的な不一致

	Claude	Gemini	OpenAI
推奨	Post-gen	Pre-gen	Hybrid

3.2 不一致の根本原因

3 モデルは**「何を critique するか」の前提が異なる**:

Claude: critique は具体的成果物に対して行うもの → post-gen が自然
Gemini: critique は前提・戦略に対して行うもの → pre-gen が自然。post-gen は "generative ceiling" で盲点を共有する
OpenAI: 両方の critique が必要 → hybrid

3.3 真の一致点

よく読むと 3 者とも hybrid に収束:

Claude: 推奨は post-gen だが "with a lightweight pre-generation concern-seeding pass" と記載。Decision matrix で hybrid (Option D) が最高点
Gemini: 推奨は pre-gen だが Multi-Stage を「Low FP / High Accuracy」と最高評価
OpenAI: 最初から hybrid 推奨

3 者一致: 重い critique は 1 箇所に置く (コスト制約)。軽い complement を反対側にも置くのが理想。どちら側に重い方を置くかで意見が分かれた。

3.4 bizlp 向け結論

bizlp の Pipeline には既に Gate 3 (Parallel Review) と Gate 4 (Scoring) が body 生成後に存在する。これらは post-gen critique の役割を果たしている (ただし「盲点検出」ではなく「品質チェック」)。

採用判断: Gate 1 の盲点検出を pre-gen に配置 し、findings を body_generation に feed-in する。理由:

Gate 3/4 が post-gen critique を既に担当 → 2 段構えが自然に成立
Gemini の "generative ceiling" 指摘は妥当 — pre-gen なら body に引きずられない
Pre-gen findings → body feed-in → Gate 3/4 post-gen review のフローが最も効率的

残課題: Gate 3/4 は「品質チェック」であって「盲点検出」ではない。Gate 3 のプロンプトに「ADR に記載されていない観点の指摘」を追加するかは別途検討。

4. コスト

モデル	実行時間	トークン	コスト
Claude (Managed Agents)	298s	input 14 / output 18,081	$1.36
Gemini (Deep Research)	457s	input 402,014 / output 23,260	$1.12
OpenAI (o3-deep-research)	475s	input 48,695 / output 30,186	$1.69
合計			$4.17