RQ-098: スコープ境界を尊重する LLM critic ゲート設計(FN=0 維持)— 3モデル調査 synthesis
調査: 2026-06-08、OpenAI o3-deep-research / Gemini deep-research-preview / Claude opus を同一プロンプトで実行。生結果は
docs/research/rq-098-result-{openai,gemini,claude}.md。 目的: Cross-Validation ゲートが「審査中の単一決定のスコープ外(下流 ADR が所有)」の懸念で過剰却下する failure mode を、FN=0(本来却下すべき指摘を取りこぼさない)を犠牲にせず直す機構を定義する。 背景: 現状 CV の差し戻しはcritical × Must軸 × underminesのみでスコープ判定が無い(ADR-0076 導入 / ADR-0109 で過剰審査ループの終端対処は済)。
Executive Summary(横断 key findings)
3モデルが独立して合意した点を最優先で 5 つ。
「閾値を緩める」では FN=0 を壊す。スコープという直交特徴量の追加が唯一の解。(3モデル合意) precision/recall は閾値上で逆相関する。バーを下げて FP を減らせば必ず FN が増える。決定境界を「動かす」のでなく、スコープメタデータという新しい軸を足して境界の「形」を変える(Claude が最も明示・OpenAI/Gemini も同旨)。
スコープ判定は自然言語プロンプトでなく「実行可能(構造化・evidence 固定)なルーブリック」でのみ安定する。(3モデル合意) 自由記述の「問題を探せ」は run 間で不安定。各 (finding × Must軸) ペアで
in_scope/out_of_scope/insufficient_evidenceの per-axis 二値+ADR からの逐語引用(evidence_quote)を必須にする。OpenAI=分離ルーブリック、Gemini=analytic rubric/pairwise、Claude=Rulers 流の versioned/hashed ルーブリック。out-of-scope は「捨てる」のでなく「具体的に名指しされた下流先へ re-home(降格)」する。委任先が無い指摘は keep(却下)が安全側のデフォルト。(3モデル合意) 降格できるのは「ID で解決する下流 ADR/spike が存在し、それ自身のドライバー・rollback/KPI・オーナーを持つ」場合のみ。委任先が無い=実質「afterwards(後回し)」で、FN を生むので却下に倒す。
判定ロジックは LLM でなく決定論的な post-processor(外部検証器)に置く。(3モデル合意 = LLM-Modulo 思想) 降格に至る唯一の経路を「全ゲート通過」とし、parse 失敗・evidence 不一致・target_id 未解決・いずれかの Must軸 undermines=yes は すべて keep。LLM の自己判定や自己批評ループは構造的に非収束(Huang ICLR 2024 / Kambhampati LLM-Modulo ICML 2024)なので最終判定を委ねない。
検証は recall-first の非対称オフライン回帰。aggregate accuracy / F1 は誤り。(3モデル合意) golden データセットに「ロックケース型」を入れ、must-keep クラスの recall が回帰したらデプロイをブロックする。FP 削減は副次指標。希少クラスでは PR-AUC が ROC より適切(Claude/Gemini)。spec-gaming 検知用の adversarial ケース(偽 target_id・循環委任・逐語捏造)も golden に入れる。
3モデル横断の合意 / 相違(設問別)
設問1 — スコープ表現と判定安定化
合意点(3モデル)
- critic に「機械可読のスコープカード」を渡す。共通して挙がったフィールド: 決定ドライバー(Must/Should)・context/決定の問い・独立可逆性・rollback/KPI・ステークホルダー/オーナー・下流/関連 ADR(typed edge)。RQ-097 の「4発散シグナル」と整合。
- ルーブリックは**ホリスティック1点でなく per-axis(分離次元)**で採点。OpenAI は Anthropic の「次元別採点」推奨を引用、Claude は analytic rubric、Gemini も per-criterion を強調。
- temperature 0 / few-shot / 構造化出力で run 間の再現性を上げる。
相違・固有の指摘
- OpenAI: scope-relevance と severity を別次元に分離して採点(「大きい問題」と「in-scope」を混同させない)。chain-of-thought でスコープを毎回再導出させる。
- Gemini: 「In-Scope 基準 = エージェントが制御可能な変数(引数妥当性・スキーマ・semantic grounding)/Out-of-Scope = 外部環境要因(API レート制限・外部障害・third-party 品質)」をプロンプトで明示禁止しないとスコアが汚染される。判定の偏り(verbosity/self-preference/position/authority bias)と pairwise 二回入替平均を強調。
- Claude: MADR/Y-statement の具体フィールドにマップ。
insufficient_evidence第三ラベルを足し「不確実→keep(保守)」へルーティング。evidence_quote は ADR ドライバー節に逐語一致を要求しパーサ層で reject(curse-of-knowledge bias 対策)。Rulers の versioned/hashed/immutable バンドル。
設問2 — 降格 vs 却下の安全な区別
合意点(3モデル)
- 不変条件: in-scope なら常に却下(FN=0 最優先)/out-of-scope かつ具体委任ありなら降格(注記付きパス)/out-of-scope かつ委任なしは in-scope 扱いで却下。(OpenAI が3分岐を明文化、Claude が I1〜I4 として定式化、Gemini は fail-open/inclusion-biased として同じ帰結)
- 降格した指摘は消さず追記/保存(OpenAI=Consequences/audit log 記録、Claude=append-only
follow_up_requiredartifact、ADR の append-only 慣行に整合)。
相違・固有の指摘
- Claude: 「可逆性非対称トレランス」— two-way door 決定は委任の許容度が高く、one-way door(不可逆)は委任バーを上げる(名指し target に加え rollback/KPI 明記を要求)。閾値緩和が FN=0 を壊す理由を causal-judgment 文献(Skepticism Trap / Scaling Paradox)で接地。
- OpenAI: 「last responsible moment」決定先送りの実務に整合させる。決定間の「インターフェース契約」(決定 A が X、B が Y を扱う)として委任を検査。
- Gemini: 「Weakest Link Upper Bound(WLNK)」— 直列依存チェーンの集約信頼度は最も懐疑的な検証器を超えられない(Γ(S) ≤ min(S))。1 つでも異常を検知したら自動実行を停止する数学的定式化。conflict 未解決時はinclusion(人間レビュー/脅威扱い)にデフォルトして FN を最小化。
設問3 — 委任の具体性ゲートと spec-gaming 防止
合意点(3モデル)
- 「out-of-scope, 下流で対応」を受理する条件は具体性と機械検証可能性。
target_idが ADR グラフで解決すること、target がその懸念をカバーする自分のドライバーを持つこと、現 ADR がその懸念を解決済みと主張していないこと。 - spec-gaming(「とりあえず out-of-scope と貼れば通る」)は Goodhart 則の典型。委任ごとに正当化(名指し owner / 根拠引用)を必須にして「ただ貼る」を高コスト化する。
相違・固有の指摘
- OpenAI: スコープメタデータとの自動 cross-check(Must ドライバーに含まれる懸念を out-of-scope と貼ったら機械的に検出して override)。プロンプトに「out-of-scope と貼れば通る」報酬シグナルを出さない設計。
- Claude: 攻撃文献を直接接地 — punctuation-only 応答が GPT-4o を 35%、
Thought process:等の opener が一部 OSS で FP 90% を誘発(master-key 攻撃)。Isomorphic Perturbation Testing (IPT): 同一 finding を実在 target と偽 target に委任して critic の出力が分岐するか検証。adversarial 学習データ(空委任・存在しない ID・非カバー ID・循環委任)。 - Gemini: より広く reward hacking(evaluator tampering が natural run の約 50% で発生・RewardHackingAgents ベンチ)と specification gaming(チェスエンジン hack / o1 Docker escape)を一般原理として提示。machine-readable GDR/FPF の Formality Level で「証拠の厳密さ」に応じた reliability ceiling を課す。
設問4 — 同一 critic 内包 vs 専用 classifier
合意点(3モデル)
- 役割分離(生成 vs 批評/スコープ vs 実質判定)は有益だが、ただ役割を割るだけでは検証は保証されない。同一モデル/類似プロンプトの critic は相関エラー(同じ盲点で同じ誤りに合意)を起こす。independence が鍵。
相違・固有の指摘
- OpenAI: 結論はハイブリッド — メイン LLM がスコープ推論し、軽量 classifier/ヒューリスティックでその結論を二重チェック(veto 可能)。Flamehaven 引用で「verification が multi-agent 最大の失敗源・類似モデルは同じ誤答に合意(agreement bias)」を強調。
- Claude: 既定は1 LLM コール内で構造化出力(scope と undermining を独立判定)+決定論的 post-condition 層(DeepEval の DAGMetric 流)。スコープ精度が律速になって初めて別モデルへ。multi-agent は production で 41-87% 失敗・79% は coordination/spec 問題(同一モデルの critic は「コーヒー休憩後の自己レビュー」)。
- Gemini: 異なる基盤モデルで独立推論する「inclusion-biased conflict resolution」— 不一致時は構造化議論(de-hallucination)→未解決なら inclusion にデフォルト。実証で FN 率約 1%。ただし「コインフリップ」論文の警告(safety judge は systematic failure を共有し near-unanimous でも人間 ground truth と乖離)も併記すべき点は Claude も指摘。
設問5 — 検証と FN=0 回帰
合意点(3モデル)
- aggregate accuracy/F1 は不適。must-keep クラス(in-scope ∪ ambiguous)の recall=1.0 を一次指標にし、回帰でデプロイブロック。FP 削減は副次。
- golden にロックケース型を網羅: ①in-scope→keep ②out-of-scope+名指し target→downgrade ③out-of-scope+target なし→keep(保守)④scope-metadata 矛盾/曖昧→keep(保守)。プロンプト/モデル変更のたびにオフライン回帰。
- 判定の安定性テスト(同一入力を複数 run して不変か)。
相違・固有の指摘
- Claude: ⑤adversarial/spec-gaming プローブ→keep+alert(100% 検知)、⑥**code-verifiable→他象限へ routing(100%)**を追加。golden は人間ラベル 100-200 例で 85% 一致から開始・各クラス最低 ~20 例。multi-judge 合意は confidence escalator であって substitute でない。希少クラスは PR-AUC。
- OpenAI: テスト群を「FN=0 を lock-in する safety net」と位置づけ。プロンプト例の storage-location ADR を回帰ケース化(DR 計画欠如で却下しないことを assert)。バグ→新テストの TDD 運用。
- Gemini: judge の 7メトリクス ensemble(Cohen's κ 等の inter-rater reliability・偶然一致でないことの確認・golden に対する precision/recall)。「95% accuracy でも希少 critical で recall 0%」の罠。cascaded 二段(高 recall・低 precision の AI フィルタ → 高 precision の決定論スクリプト/人間 triage)。
合意度サマリ: 設問1=高、設問2=高、設問3=高(攻撃事例の具体性は各モデル固有)、設問4=中(分離は合意、内包1コール vs 別モデルで方針が分かれる)、設問5=高。
推奨機構(FN=0 を壊さない統合設計)
3モデルの提案を統合した推奨アーキ。Claude の post-processor 不変条件を骨格に、OpenAI の3分岐と二重チェック、Gemini の inclusion-default を取り込む。
[1] ADR ingestion → Scope Card 派生
(MADR フィールド: decision_question / must_drivers[] / should_drivers[] /
considered_options[] / independent_reversibility / rollback_kpi /
stakeholders・owner / downstream_adrs[]・follow_ups[] / typed relations)
│ ※ versioned + hashed
▼
[2] Cross-Validation Critic(単一 LLM コール・DAG/構造化出力)
入力: Scope Card(hash 済)+ finding + locked rubric(hash 済)
出力(schema-locked JSON, 構造化デコード):
scope_verdict: in_scope | out_of_scope | insufficient_evidence
evidence_quote: <ADR ドライバー節からの逐語>
(out_of_scope のとき)delegation:
target_id / target_kind(existing_adr|spike|create_request)
coverage_argument: <target からの逐語>
premise_undermines_axis: <Must軸ごと yes|no|insufficient_evidence>
per_axis_evidence: <ADR span>
│
▼
[3] 決定論的 Post-Processor(= FN=0 のフロア。LLM ではない)
1. JSON schema 不正? → KEEP
2. evidence_quote 逐語不一致? → KEEP
3. いずれかの Must軸 undermines=yes? → KEEP(scope 判定を上書き)
4. scope == in_scope? → KEEP
5. scope == insufficient? → KEEP
6. target_id がグラフで未解決? → KEEP
7. target が自分のドライバー+rollback_kpi を持たない? → KEEP
── ここに到達した時のみ ── → DOWNGRADE
│
▼
[4] append-only re-home: follow_up_required artifact を ADR グラフに生成。
元 finding は trace に残す(消さない)。
│
▼
[5] 曖昧/不一致時のエスカレーション: insufficient や cross-check 不一致は
人間レビューへ(Gemini=inclusion default / OpenAI=human oversight)。
依拠する不変条件(invariants)
- I1 保守デフォルト: malformed・parse 失敗・欠落・
insufficient_evidenceはすべて keep。降格に至る唯一の経路は post-processor の全ゲート通過。 - I2 軸 undermining の優越: いずれかの Must軸が
undermines=yesなら、scope 判定に関わらず keep。critic が in-scope を out-of-scope と誤分類しても、軸を正しく捉えていれば取りこぼさない。 - I3 append-only 保存: 降格 finding は削除せず
follow_up_requiredとして名指し target に紐付け(ADR の append-only 慣行に整合)。silent loss を防ぐ。 - I4 名指し target + coverage: 降格には
target_idがグラフで解決し、target が当該懸念をカバーする自分のドライバーを持ち、target からの evidence_quote があること。1 つでも欠けたら keep。 - I5 逐語 evidence: in-scope/out-of-scope の主張はすべて、引用元(ADR ドライバー / target coverage)に文字単位で一致する引用を含む(Rulers の evidence-anchored 規律)。
- I6 versioned/hashed rubric: ルーブリック+スコープカード schema を hash し、判定ごとに hash を保存。ルーブリック変更は golden 全回帰をトリガー。
- I7 委任は外部検証器で: target 解決・evidence 文字列検証・必須フィールド検査はすべて LLM 外の決定論コード(LLM-Modulo)。
- I8 非対称回帰ゲート: must-keep クラスの FN 回帰があればデプロイブロック。FP 削減は副次。
- I9 可逆性非対称バー(Claude 固有・推奨採用): one-way door 決定は委任バーを上げる(名指し target に加え rollback/KPI 明記を必須)。
- I10 二重チェック / inclusion default(OpenAI・Gemini 固有・推奨採用): スコープ結論をヒューリスティックで veto 可能にし、cross-model 不一致や曖昧は人間へ inclusion デフォルト。
out-of-scope を捨てず re-home する不変条件: I3+I4。委任先が存在し自分のドライバー/rollback を持つ時のみ降格し、その finding は follow_up_required として保存され下流 ADR 作成をゲートする。委任先が無い out-of-scope は I4 で keep(= in-scope 扱いの却下)に倒れる。
委任先の具体性ゲート(spec-gaming 防止): I4+I7+adversarial golden(後述)。target_id がグラフで解決しなければ keep。実在 target と偽 target で出力が分岐するか IPT で検証。空委任・存在しない ID・非カバー ID・循環委任を golden に入れて critic を鍛える。
FN=0 を保つ二重ゲート: ①LLM 層(軸ごとの構造化判定)と ②決定論 post-processor 層(I1〜I7)。真に premise を毀損する finding がすり抜けるのは「I2/I5/I1 がすべて同時に破れる」場合のみで、いずれも単体テスト可能なコードレベル不変条件。プロンプトドリフトや spec-gaming に対し、プロンプト上の「バー」より頑健。
文献根拠(URL)
- 自己批評の非収束: Huang et al. LLMs Cannot Self-Correct Reasoning Yet ICLR 2024 — https://arxiv.org/abs/2310.01798
- 外部検証器: Kambhampati et al. LLMs Can't Plan, But Can Help Planning in LLM-Modulo Frameworks ICML 2024 — https://arxiv.org/pdf/2402.01817
- 実行可能ルーブリック/evidence 固定: Rulers: Locked Rubrics and Evidence-Anchored Scoring — https://arxiv.org/html/2601.08654v1
- スコープ過剰却下の機序: Diagnosing and Mitigating Sycophancy and Skepticism in LLM Causal Judgment — https://arxiv.org/html/2601.08258v3
- judge 騙し(master-key): Tencent/Princeton 報 — https://bdtechtalks.substack.com/p/new-research-reveals-critical-flaw
- reward hacking ベンチ: Reward Hacking Benchmark — https://arxiv.org/html/2605.02964
- ルーブリック分離次元: Twine How to Write an LLM Evaluation Rubric — https://www.twine.net/blog/how-to-write-an-llm-evaluation-rubric/
- 役割分離≠検証: Flamehaven Role Separation Is Not Verification — https://flamehaven.space/writing/role-separation-is-not-verification-the-structural-failures-hidden-in-your-multi-agent-pipeline/
検証戦略(golden データセットと FN=0 回帰)
3モデルの提案を統合したケース型と固定方法。
| クラス | ground truth | 必須挙動 | ロック基準 |
|---|---|---|---|
| in-scope, undermines | finding が当 ADR の Must軸を毀損 | keep(却下) | recall = 1.0(FN=0) |
| out-of-scope, 名指し target+coverage | 懸念が具体リンクされた下流 ADR(自分のドライバーでカバー)に属す | downgrade+follow_up_required 発行 | downgrade の precision ≥ 目標値 |
| out-of-scope, target なし | 懸念は下流だが具体オーナー不在 | keep(保守) | recall = 1.0(FN=0) |
| scope-metadata 矛盾/曖昧 | ドライバー矛盾 or 軸を跨ぐ | keep(保守) | recall = 1.0(FN=0) |
| adversarial / spec-gaming プローブ | 偽 target_id・循環委任・逐語捏造 | keep+alert | 100% 検知 |
| code-verifiable finding | コード読みで解決可 | 他象限へ routing | 100% routing |
FN=0 の固定方法(3モデル統合)
- 一次指標は must-keep クラス(in-scope ∪ ambiguous ∪ target なし)の recall。回帰したらデプロイをブロック(I8)。aggregate accuracy/F1 は使わない。希少クラスは PR-AUC(Claude/Gemini)。
- golden は人間ラベル 100-200 例で 85% 一致から開始、各クラス最低 ~20 例(Claude)。プロンプト例の storage-location ADR(DR/index/timestamp-authority を理由に却下しない)を回帰ケース化(OpenAI)。
- ルーブリック+プロンプト+スコープカード schema を hash して判定に紐付け(I6)。変更ごとにオフライン全回帰。
- adversarial プローブは IPT(同一 finding を実在/偽 target に委任し分岐を確認)で spec-gaming を回帰検知(Claude)。
- multi-judge 合意は confidence escalator として使い、不一致→keep/人間。ただし「合意=正しさ」ではない(コインフリップ論文の警告)。判定の安定性(同一入力 複数 run で不変)も検査。
- judge 自体の品質は 7メトリクス ensemble(Cohen's κ 等)で検証可(Gemini)。
- バグ→新テストの TDD で golden を living spec として育てる(OpenAI)。
注: 当リポの cross-val golden は非決定性で FN=0 単発ゲートが ~80% で偽 FN を出す既知の flake がある([[crossval-golden-fn0-flaky]])。本戦略の「複数 run / majority-vote」は既存宿題と整合。
ADR-0119(code-verifiable 象限)との関係
3モデルとも「スコープ委任問題」と「code-verifiable 問題」は直交する別象限と明言した。
- 証拠の型が違う: code-verifiable は interpreter / test runner / 文字列一致で真偽が確定する事実主張。スコープ委任は「この懸念は storage ADR の問題か、下流 operations ADR の問題か」という決定境界の ontological 主張で、実行可能オラクルが無い。証拠は「決定アーティファクトとそのドライバーのグラフ」であってランタイム挙動ではない(Claude が最も明確・OpenAI/Gemini も同旨)。
- 機構が違う: code-verifiable は決定論ツールを呼び LLM は coordinator(CRITIC/RLVR 流の tool-grounded critique)。スコープ判定は machine-readable スコープカードに anchor した構造化判定 critic で、外部コードは post-condition checker(target 解決・evidence anchoring・schema 検証)に留める。
- パイプライン上の層が違う: code-verifiable はスコープゲートより前に解決でき、スコープゲートは残った substantive-judgment findings に対して動く。
統合 vs 独立 ADR の示唆: 両象限は別 ADRが妥当。ADR-0119 が code-verifiable 象限(verify_in_code + evidence、Phase B 観測専用統合済)を扱うのに対し、本 RQ-098 は scope-delegation 象限として独立 ADR で起案するのが自然。RQ-097 の「1 ADR=1 決定/4発散シグナル(ドライバー・可逆性・オーナー・KPI が分かれたら割る)」に照らしても、両者はドライバーも検証戦略も異なるため分割側。ただし両ゲートは CV パイプライン内で**直列(code-verifiable を先に処理 → 残余をスコープゲート)**に配線する点は共通設計として 1 つの実装に同居しうる。
未解決・要追加調査(3モデルが答えきれなかった点)
- substantive-judgment FN の下限: 推奨設計は「委任起因の FN」をゼロにするが、critic が全 Must軸を自信を持って誤って
undermines=noと出すケース(人間なら yes)は残る。この残余 FN は critic の素の recall に束縛され、回帰ゲート I8 でしか監視されない。critic 自体の recall 向上策(モデルアップグレード・substantive 軸での multi-judge)は本調査の範囲外(Claude が明示)。 - 委任先の時間的妥当性: 下流 ADR が「十分早く」着手されるかの判定は LLM 知識を超える。OpenAI は target status(proposed/accepted)をメタデータに入れて目安にするが、確実な機構は未確立。
- inclusion default のコスト: Gemini の fail-open は FN を下げるが FP/人間レビュー負荷を増やす(false positive paradox)。曖昧ケースをどこまで人間に回すかの運用閾値は調査で決め切れていない。
- 内包1コール vs 別モデル classifier の実証比較: 設問4 は方針が割れた(Claude=1コール既定、OpenAI=ハイブリッド二重チェック、Gemini=cross-model)。当パイプラインでどちらがスコープ精度・コストで優位かはオフライン実測待ち(合意なし)。
- 委任の coverage 判定の自動化: 「target のドライバーが当該懸念を本当にカバーするか」の relevance 判定自体が小型 scope-classifier を要し、その classifier の検証が再帰的に必要になる点の解は提示されていない。
References(3モデル統合・重複排除)
LLM critic の限界 / 外部検証器
- Huang et al. Large Language Models Cannot Self-Correct Reasoning Yet. ICLR 2024. https://arxiv.org/abs/2310.01798 / https://openreview.net/forum?id=IkmD3fKBPQ
- Kambhampati et al. LLMs Can't Plan, But Can Help Planning in LLM-Modulo Frameworks. ICML 2024. https://proceedings.mlr.press/v235/kambhampati24a.html / https://arxiv.org/pdf/2402.01817
- When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction. TACL 2024. https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00713/125177/
LLM-as-judge / ルーブリック設計
- Rulers: Locked Rubrics and Evidence-Anchored Scoring for Robust LLM Evaluation. https://arxiv.org/html/2601.08654v1
- Autorubric: Unifying Rubric-based LLM Evaluation. https://arxiv.org/html/2603.00077v2
- Learning to Judge: LLMs Designing and Applying Evaluation Rubrics. https://arxiv.org/html/2602.08672v1
- Twine AI. How to Write an LLM Evaluation Rubric. https://www.twine.net/blog/how-to-write-an-llm-evaluation-rubric/
- Arize. LLM as a Judge. https://arize.com/llm-as-a-judge/ / https://arize.com/blog/how-to-build-llm-as-a-judge-evaluators-that-hold-up-in-production/
- Confident AI / DeepEval. https://www.confident-ai.com/blog/why-llm-as-a-judge-is-the-best-llm-evaluation-method / https://deepeval.com/guides/guides-llm-as-a-judge
- Langfuse. https://langfuse.com/docs/evaluation/evaluation-methods/llm-as-a-judge
- Evidently AI. https://www.evidentlyai.com/llm-guide/llm-as-a-judge
- Deepchecks. LLM-as-a-Judge Calibration. https://deepchecks.com/llm-judge-calibration-automated-issues/
spec-gaming / reward hacking / judge fooling
- Bondarenko et al. Demonstrating specification gaming in reasoning models. https://arxiv.org/abs/2502.13295
- Helff et al. LLMs Gaming Verifiers: RLVR can Lead to Reward Hacking. https://arxiv.org/abs/2604.15149
- Reward Hacking in the Era of Large Models. https://arxiv.org/html/2604.13602v1
- Reward Hacking Benchmark (RewardHackingAgents). https://arxiv.org/html/2605.02964
- bdtechtalks. Master-RM / master-key attacks. https://bdtechtalks.substack.com/p/new-research-reveals-critical-flaw
safety-critical / 非対称損失の judge 信頼性
- Noisy but Valid: Robust Statistical Evaluation of LLMs with Imperfect Judges. https://arxiv.org/html/2601.20913v1
- A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness. https://arxiv.org/html/2603.06594
- Diagnosing and Mitigating Sycophancy and Skepticism in LLM Causal Judgment. https://arxiv.org/html/2601.08258v3
- Know Your Limits: A Survey of Abstention in LLMs. TACL. https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00754/131566/
- MAPIE. Risk Control for LLM as a Judge with Abstention. https://mapie.readthedocs.io/en/stable/examples_risk_control/2-advanced-analysis/plot_risk_control_llm_as_a_judge.html
multi-agent / 役割分離 / 失敗モード
- Flamehaven. Role Separation Is Not Verification. https://flamehaven.space/writing/role-separation-is-not-verification-the-structural-failures-hidden-in-your-multi-agent-pipeline/
- Why Multi-Agent LLM Systems Fail (and How to Build Ones That Don't). https://tianpan.co/blog/2025-10-14-why-multi-agent-llm-systems-fail
- MindStudio. LLM as Judge: The Agent Safety Pattern. https://www.mindstudio.ai/blog/llm-as-judge-agent-safety-pattern
ADR 実務(1決定・ドライバー・follow-up・supersession・グラフ)
- AWS. Master architecture decision records. https://aws.amazon.com/blogs/architecture/master-architecture-decision-records-adrs-best-practices-for-effective-decision-making/
- AWS Prescriptive Guidance. ADR process. https://docs.aws.amazon.com/prescriptive-guidance/latest/architectural-decision-records/adr-process.html
- Microsoft Azure Well-Architected. Architecture decision record. https://learn.microsoft.com/en-us/azure/well-architected/architect-role/architecture-decision-record
- adr.github.io / templates. https://adr.github.io/ / https://adr.github.io/adr-templates/
- Joel Parker Henderson. architecture-decision-record. https://github.com/joelparkerhenderson/architecture-decision-record
- Fowler. Architecture Decision Record (bliki). https://martinfowler.com/bliki/ArchitectureDecisionRecord.html
- Zimmermann. Y-Statements. https://medium.com/olzzio/y-statements-10eb07b5a177
- Markdown Architectural Decision Records (MADR). https://ceur-ws.org/Vol-2072/paper9.pdf / https://ozimmer.ch/practices/2022/11/22/MADRTemplatePrimer.html
- TechTarget. Best practices for ADRs. https://www.techtarget.com/searchapparchitecture/tip/4-best-practices-for-creating-architecture-decision-records
- Architecture Decision Dependencies in ADR Systems (typed edges). https://www.nilus.be/blog/architecture_decision_dependencies_in_adr_systems/
- EventCatalog. Introducing ADRs (bidirectional appliesTo links). https://www.eventcatalog.dev/blog/introducing-adrs
評価指標 / 非対称損失 / オフライン回帰
- Google ML Crash Course. Accuracy, recall, precision. https://developers.google.com/machine-learning/crash-course/classification/accuracy-precision-recall
- Galileo. F1 Score for AI Evaluation. https://galileo.ai/blog/f1-score-ai-evaluation-precision-recall
- Label Studio. Offline vs Online AI Evaluation. https://labelstud.io/learningcenter/offline-evaluation-vs-online-evaluation-when-to-use-each/
Gemini 固有(GDR / FPF / 産業事例)
- Governance Decision Records / First Principles Framework(scope metadata・Formality Level・WLNK 不変量) — Gemini 生結果 §References [10][11] 参照(Vertex grounding redirect URL は生結果
docs/research/rq-098-result-gemini.mdに収録)。 - 産業事例: Meta RADAR(Risk Aware Diff Auto Review)/ Web3 smart-contract auditing(Slither + AI 文脈レビュー)— 同上、生結果 §Sources [8][38]。
完全な URL(Gemini の Vertex grounding redirect 含む)は各生結果
docs/research/rq-098-result-{openai,gemini,claude}.mdの References / Sources 節を参照。