問題価値レイティングのフレームワーク — 3モデル ディープリサーチ統合
調査: 2026-06-18、OpenAI
o3-deep-research/ Geminideep-research/ Claudeopus-4-7(managed-agent)。各 1 回・3 社並行。総コスト概算 $4.64(OpenAI $2.00 / Claude $1.52 / Gemini $1.12)。所要 6〜15 分(background 並列)。生結果は rq-106-result-{claude,gemini,openai}.md。 問い: ADR 起案の生テキスト段階で「取り組む価値のある問題か」を判定する入口スクリーンを設計するにあたり、成熟フレームワークは問題の severity/priority/value をどう次元化・採点するか。再現性 (run-to-run 同一判定) と逐語 evidence の説明可能性が硬い制約。 検証方針: 要約段階で「3 モデル合意」と括った主張を精読で裏取りし、合意度を厳密化した(「合意に見えても疑う」)。確定度を ◎ 3 モデル合意 / ○ 2 モデル明示 / △ 1 モデルのみ にランク付け。
0. 結論(先に要点)
起案者の叩き台フレーム(harm domain × blast radius × irreversibility A/B/C)は方向として正しい。3 モデルが共通して支持する核心は以下:
- 共通頻出 3 次元 = Impact / Urgency / Scope。各分野固有の次元(Likelihood・Detection・顧客価値)が付く。
- アンカー定義 + 逐語トリガー語彙が再現性の本丸。NIST の再現性テスト=「2 人が同じ材料から同じ判定に到達できるか」。→ 我々の「LLM は逐語抽出のみ・判定はコード」方針が正解と裏付け。
- 不可逆性の独立次元化は希少 = 我々の強み(Bezos one-way/two-way door / Arrow-Fisher 1974 / FMEA Action Priority)。リスク系は consequence に溶かすだけ。
- Severity と Priority の分離は 3 モデル明示。→ A/B/C は問題価値=severity、triage の mode=審査深度=priority、を別軸として駆動する設計判断が裏付けられた。
採用後の具体化は ADR-0157(問題価値 harm 性質スクリーン A/B/C)+ ADR-0158(コストゲート分離)で受理済(2026-06-18・Accepted・本番反映済)。本 synthesis は受理 ADR の論拠ベースとして残す。
1. ◎ 3 モデル合意(確定的に採用してよい)
- 共通頻出の 3 次元 = Impact / Urgency / Scope(影響範囲)。各分野固有の次元(Likelihood・Detection・顧客価値)が付く。
- 各レベルのアンカー定義 + 逐語トリガー語彙が再現性の本丸。NIST は「2 人が同じ材料から同じ判定に到達できるか」を再現性テストとする。→ 我々の「LLM は逐語抽出のみ・判定はコード」方針が裏付けられる。
- 不可逆性の独立次元化は希少 = 我々の強み(Bezos one-way/two-way door・Arrow-Fisher 1974・FMEA Action Priority)。リスク系は consequence に溶かすだけ。
- 機会費用のドル建ては draft 段階で非現実的(プロでも困難)。→ 相対 3 段階(大/中/小)に留める。
- Severity と Priority の分離(3 モデル明示)。severity=問題そのものの重大さ、priority=いつ着手するか(severity + effort + 依存 + タイミング)。→ A/B/C = 問題価値 severity、triage の mode = 審査深度 priority 寄り、を別軸として駆動する設計判断が正しいと裏付け。
- 保守的デフォルト(疑わしきは高く見積もり、後で人間が下げる: PagerDuty)。→ HITL 方針と整合。
2. ○ 2 モデル明示(採用推奨)
- Urgency(時間切迫)軸を叩き台に追加(Claude + OpenAI が Must-have で明示。Gemini は ITIL/WSJF で中核扱いの間接支持)。
- ⚠️ 注意: 不可逆性 B(慢性悪化)と Urgency は混同しやすい。B=「複利的に悪化する度合い」、Urgency=「外部期限の切迫」と定義を分離する。
- WSJF の線形加算には数学的欠陥(Gemini + Claude。Reinertsen 本人も SAFe の単純加算を批判)。→ WSJF を丸採りせず、Cost of Delay の発想だけ借りる。
- SRE の MQL 閾値トリガー(OpenAI + Claude。CPU 70%→Info / 80%→Warning / 90%→Critical)。→ 我々の「逐語トリガー語彙でクラスを機械確定」の実装モデル。
3. △ Should-have / 1 モデルのみ(検討・要裏取り)
- Frequency(頻度)軸(累積影響)・価値規模(Impact magnitude)軸(同じ売上でも 100 万 vs 1 億)・Confidence フラグ(証拠薄なら人間へ)。いずれも Should-have。
- BIA 時間指標 RPO/RTO/MTPD(Gemini のみ): 「法人継続性」「情報資産」ドメインを時間で採点するアンカーに使える(RPO=許容データ損失=不可逆 A の情報資産喪失の尺度)。
- 技術的負債 = 複利的 Cost of Delay(Gemini): 我々の B(慢性流血=認知負荷 ADR-0149)の理論的裏付け。
- ⚠️ Gemini 独自の学術論拠(Arrow-Fisher 1974・疾患重症度スコアの不可逆成分集計)は魅力的だが、出力が vertexaisearch リダイレクト URL で一次ソースが隠れる。ADR の論拠に使うなら元ソースを別途裏取りすること。Claude/OpenAI は first.org/nvd.nist.gov 等の一次ソース明示で信頼度が高い。
4. 叩き台フレーム → 更新提案(検証済み)
| 区分 | 内容 |
|---|---|
| 追加確定 | ① Urgency 軸(高=猶予なし/中=待つと損失増/低=影響小)② 全軸に逐語トリガー語彙アンカー ③ Confidence フラグ(スコアに混ぜず証拠薄なら人間へ) |
| A の実装 | FMEA Action Priority 流の lookup-table: 不可逆 A ×(顧客/全社級)は ROI 不問で強制 Critical。情報資産は RPO 概念(バックアップ/復旧可否)で採点 |
| B/C の実装 | ドル建てを捨て相対 3 段階。B/C 分けの実測キラークエスチョン = 「放置コスト + 逸失利益」 |
| 懸念対処 | B vs Urgency の定義分離 / 毀損ドメイン多重該当 = 最高 severity 採用 or 複数フラグ / 規模未記載 = デフォルト狭い + 特定ワードで昇格 |
| 不採用 | Effort(draft で未確定・スライス操作を誘発)/ Detection(運用次元で遠い)/ CD3 ドル建て |
5. 残っている設計判断(ADR 起案で確定させる事項 — 受理時点でどう処理したか)
| # | 論点 | 受理 ADR(2026-06-18)での処理 |
|---|---|---|
| 1 | A5(属人化・bus factor)を v1 か Phase 2 か | Phase 2 送り(ADR-0157 §決定 ②: A1-A4 + B/C で v1。逐語裏付けが最も難しい A5 は次フェーズ) |
| 2 | A 免除 × ADR-0088 コストゲートの順序: (a) triage 統合 / (b) コストゲート独立ノード化 / (c) v1 は A 免除見送り | (b) を採用 → ADR-0158(コストゲートを cost_gate 独立ノードへ移し、triage → abc_screen → cost_gate → pregate の順に配置・abcVerdict==='A' で ROI 免除) |
| 3 | C/Do Nothing の強さ | 旗+根拠を上げ人間が終端・auto-reject しない(ADR-0157 §決定)。再起案率を telemetry KPI に追加し起案者萎縮を撤退条件で監視 |
| 4 | Urgency 軸と B の定義分離 | 別軸として明記(ADR-0157 §決定: 「不可逆性 A と Urgency は共起しても別軸」「慢性悪化 B は外部期限の Urgency とは区別する」) |
| 5 | Severity/Priority 分離をどう設計に反映 | abc_screen の verdict = 問題価値 severity / triage の mode = 審査深度 priority、を別軸として駆動(ADR-0157 §決定。Confirmation の Cross-Validation 軸 #safe/#reliable で再現性をゲート) |
6. 接続点の精読(設計時の調査結果・参考)
ADR-0157/0158 の起案前に既存パイプライン接続点を精読した結果。受理 ADR の §1.2〜§決定 でこの精読結果を引用している。
- パイプライン配線 (
drp/src/graph.ts):START → triage →(needsAdr?)→ problem_space_pregate →(rejected?)→ socratic → body_generation → …(受理後の現状はtriage → abc_screen → cost_gate → pregate → socratic)。 - triage (
drp/src/nodes/triage.ts) は 1 ノードに 4 工程が同居:- ① short-circuit(おやつ/typo 除外)
- ② is_adr_worthy 判定
- ③ mode 決定(Light/Standard/Critical)
- ④ ADR-0088 コストゲート + ADR-0091 数値条件(Standard/Critical でコスト試算未記載なら reject) → ADR-0158 で
cost_gate独立ノード化済
- pregate (ADR-0142・
problem_space_pregate.ts+problem_space_decide.ts): 一次(gemini-flashでsuspect_multiple高再現抽出)→ 二次(claude-sonnetで IBIS 分解)→ 判定はdecide()コード(root>=2/ 行き先なし前提 / 逐語照合失敗=INVALID)。出力は FAIL=差し戻し一択。 - 設計上の重要な制約: A の「ROI 免除」を成立させるには ADR-0088 コストゲートを triage 内から動かす必要がある(ADR-0157 §決定 案5・ADR-0158 で実装)。
- 置き場の方向: pregate は「構造判定・FAIL=reject 一択」、A/B/C は「全件で harm を見る・出力はルーティング(A→Critical / B→実測必須 / C→Do Nothing)」で性質が異なる。→ pregate 拡張より隣接ノードが思想的に自然。
7. 実データ裏付け(本調査と並行で取得・telemetry n=97)
本番 D1 decision-pipeline-telemetry(読み取り専用クエリ・ユーザー承認済)で distinct 起案 97 件(2026-05-27〜06-17・単一起案者)を分析した結果。受理 ADR の §1.2 が引用している。
- solution-first(問題が枠付けされていない)= 7%。うち 6/7 は既に triage で needs_adr=0(おやつ・smoke test 等)。→ problem-framing 床ゲートは triage と重複・不要。
- 放置コスト記述なし ≈ 1/3。一見「却下率 79% / 平均スコア 39.6(合格線 40 未満)」と強相関に見えたが、Gate4 軸別に開けると交絡だった:
- 軸1 (
problem_definition) 平均 4.0 で失点源でなく、落ちる起案は他軸が一律 ~0.5 点ずつ薄い(broad thinness)+ 軸8(実装コスト)起因。 - → inaction-cost 単独の入口ゲートは低 ROI。
- 軸1 (
- Gate4 採点 10 軸のうち 9 軸が解決策・決定側で、問題側は軸1のみ。しかも軸1は「痛みを記述したか」で「解く価値があるか」は見ていない。放置コスト/機会費用の専用軸は全ゲートに存在しない。= A/B/C スクリーンが埋める穴。
8. 受理後の運用観察ポイント
- Confidence フラグ運用数値(週次上限件数・SLA 日数・担当ロール・エスカレーション先)を本番反映 2 週以内に確定(ADR-0157 §Confirmation)。
- A 免除率(
cost_gate_verdict='A_AWARE_PASS')を週次 telemetry レビューに追加。標本 5 件以上の週で 4 週連続 50% 超なら A 免除無効化、累計 20 件 or 前月比 200% 増で即時レビュー(ADR-0158 §撤退条件)。 - 複数ライター golden eval: verdict 一致率 < 80% で
#reliableK.O. 不成立(ADR-0157 §Confirmation。本調査の「アンカー定義 + 逐語トリガー語彙が再現性の本丸」を機械化で担保)。 - 新興ドメインの harm(AI 規制・新規 CVE)が四半期更新の空白で C 誤分類されないようイベントドリブン更新(ADR-0157 §Confirmation 例外フロー)。
9. 参照
- 受理 ADR: ADR-0157 / ADR-0158
- 関連 ADR: ADR-0142(pregate) / ADR-0088(コストゲート) / ADR-0102(審査深度) / ADR-0149(認知負荷 = B④ の実例)
- 生結果: Claude / Gemini / OpenAI
- 調査プロンプト: RQ-106 prompt
- コード:
drp/src/graph.ts、drp/src/nodes/{triage,abc_screen,cost_gate,problem_space_pregate,problem_space_decide}.ts - 採点軸:
prompts/production/gate4-scoring/prompt.md(10 軸) - 外部資料: FMEA Action Priority (ISO 17165-2 等) / Bezos one-way/two-way door / Arrow-Fisher 1974 / NIST 再現性テスト / first.org CVSS / nvd.nist.gov / Reinertsen (Cost of Delay) / PagerDuty incident severity ladder