調査: 2026-06-11、OpenAI o3-deep-research / Gemini deep-research / Claude managed-agent を同一プロンプト(RQ-102)で実行。生結果は docs/research/rq-102-result-{openai,gemini,claude}.md。総コスト ~$6.73。 目的: ADR-0131 の型付き辺について、構文 lint(実在・対称・状態・非循環)では検出できない型の意味誤り(例: depends_on とすべき関係を relates_to と宣言)を検証するロジックを確定する。ADR-0131 受理時に HITL で受容した残余リスク(サンプル 10 件の検出力不足)の定量化と、0117 監査拡張 ADR の判定基準の設計根拠を得る。


Executive Summary(3モデル合意・高確度)

  1. 現行のサンプル 10 件・不一致 2 件トリガーは統計的に弱い — 3モデルが独立に同じ計算に到達。 n=10 で不一致 0 でも誤り率 30% を否定できない(rule of three: 95% 上限 3/n)。誤り率 10% に対する現行トリガー(≥2 件)の検出力は **26%**(3 本とも一致: 26.2〜26.4%)。誤り率 10% を 90% 信頼で検出するには n≈22(c=0: 1 件でも全数監査)、5% なら n≈45。式は n = ln(1−conf)/ln(1−p)。サンプリング修正が最も安価で効果の大きい改善(Claude が明示・他 2 本も数表で同旨)。
  2. LLM-as-judge は最有力だが over-acceptance が実証された失敗モード。対策は文献が同一設計に収束している。 参照ベンチ(RDF トリプル検証・arXiv:2409.07507)は precision 88% / recall 44% で「人間監督必須」と著者明言(3 本とも引用)。収束した対策: ①LLM 内部知識を遮断し両端文書のみで判定 ②逐語エビデンス引用の強制(空白正規化後の完全一致を機械照合) ③型ごとの二値判定(1-5 スコアでなく) ④次点型との比較(宣言型 vs runner-up の二択仲裁) ⑤self-consistency 多数決(3〜10 票)。HITL 統合の実測: LLM 単独は F1 −5%、人間と組むと最小介入で F1 +5%(Inf. Processing & Management 2025)。
  3. NLI(含意)は LLM judge と失敗モードが独立な second opinion として有効。日本語ペナルティ ~5pp を予算化する。 型を仮説文に言語化し両端本文を premise に判定する型は実証済み(Sainz et al. EMNLP 2021: zero-shot 63% F1 / few-shot 69%)。多言語 NLI(mDeBERTa-v3)の XNLI 平均 80.8%・日本語資源は JSNLI/JNLI。文書長 premise と 3 文書以上の合成的依存は既知の弱点。
  4. embedding/path ベースの統計的誤り検出は ~130 ノードでは主要機構として不成立(3モデル一致)。 決定的根拠 = Pujara et al. EMNLP 2017「embedding は sparsity と unreliability の増大で劣化」。数千トリプル級が前提で、少数トリプルは丸暗記される。代替は軽量な型別構造制約(supersedes の時系列方向・status 整合・型別次数の外れ値・同一ペアの矛盾型併存)で、決定的なので CI lint に追加できる。
  5. 配置の合意: per-PR CI に LLM/NLI を置かない。LLM 検証は一回限りの移行受け入れと定期監査に集約する。 CI は決定的検査(構文 lint + 型別構造制約)のみ。初期移行は一回限りのコストなので LLM による全辺一括検証に投資する価値がある(誤辺の早期修正は伝播後の手直しより遥かに安い)。継続運用は「能力ベースのタスク分割」(高確信は自動・低確信/不一致は人間)が full automation にも全件人間確認にも勝る。

設問別サマリ(合意 / 相違)

Q1 — LLM-as-judge 設計

  • 合意: precision 優先(誤辺への false OK を出さない)。対策込みで precision 85〜95% が報告水準。構造化出力 {relation_supported, evidence_snippets, best_alternative_type}
  • OpenAI 固有: 同一トリプルへプロンプトを変えて 3 回回答させる多数決(Tsaneva et al.)。逆方向関係の整合チェック(A supersedes B ⇔ B superseded_by A の回答一致)。
  • Gemini 固有: Extractor-Verifier の 2 役分離 — Verifier は提案ラベルと逐語引用のみを受け取り(文書全体を見ずに)引用がラベルを支持するか盲検評価。CoT パラドックスの警告: 「show your work」指示は厳密フォーマット・字句制約の遵守をかえって劣化させる(Claude のレポートは CoT 改善側 — 唯一の明確な相違点)。
  • Claude 固有: KGValidator の失敗モード「細粒度概念の混同」は depends_on vs relates_to の区別と同型と指摘。pairwise 比較は位置入替で position bias 対策。judge drift 検知: 毎監査で「確実に正しい」判定から 5 件を人間検証し不一致率を時系列追跡(単発キャリブレーション不十分)。

Q2 — NLI・含意ベース

  • 合意: label verbalization + entailment は実証済みパターン。閾値は entailment 確率の二値化 + held-out で調整。P_contradiction 高は即レビュー。
  • 相違(日本語の扱い): OpenAI/Claude = translate-test(日→英訳 + 強い英語 NLI)は有効な選択肢(英語 90% → 翻訳経由 ~77〜85%)。Gemini = translate-then-verify は技術ニュアンス喪失で「構造的に欠陥」と断定し、国産 SLM(Swallow-8B/ELYZA-JP-8B 量子化ローカル)+ GraphRAG を推奨。→ 当リポは LLM judge が主・NLI は second opinion なので、まず多言語 NLI 直接適用(80%)で十分、というのが統合判断。
  • Claude 固有の警告: 「多言語 NLI で 90% 前後を謳うモデルはテストミスの可能性が高い」(モデルカード由来)。GPT-4 の日本語 79.9% vs 英語 85.5%(MMLU)から ~5pp の日本語ペナルティを予算化

Q3 — 統計的誤り検出の小規模適用性

  • 合意: 主要機構として不採用。「この規模では rules and eyeballs(ルール + 目視)が最良」(OpenAI)。
  • Gemini 固有: SDValidate(述語ごとの対象型分布との cosine 類似度・テキスト非依存)を初段フィルタに — 統計が貧弱でも「型分布から見てありえない辺」の粗いフラグには使える。
  • Claude 固有: PRGE の知見「最低スコア triple の 85% 超が実際に誤り」→ 怪しさランキングで監査対象を選ぶ(reranking)用途なら小規模でも価値が残る。

Q4 — サンプリング設計

  • 合意: Executive Summary 1 の数表。非対称コスト(見逃し > 誤警報)では c=0(1 件で行動)に倒す。
  • OpenAI 固有: 二段階 adaptive sampling — 初回 10 件で 1 件発見 = イエローフラグ → 追加 10〜20 件 → 2 件目でエスカレート。発見時は同一型の辺への標的フル監査(全辺総当たりより効率的)。層化サンプリング(型ごと比例配分)。
  • Gemini 固有: 有限母集団(~260 辺)には超幾何分布が正確 — N=260・n=25・≥2 件トリガーで検出力 ~75%。偽陽性パラドックスの警告: 誤り率 5% で TPR 85%/FPR 10% のとき、フラグの ~70% が誤警報になりレビュー側の信頼を破壊 → False Positive budget をポリシーとして明示。
  • Claude 固有: 現行案を「n=10, c=1 の受入抜取計画」と形式化し OC 曲線で評価。代替に SPRT 逐次計画(p0=2%・p1=10%・α=β=10%・上限 n≈30、通常はより早く終結)。

Q5 — 統合パターン

  • 合意の Method × Placement マトリクス:
手法移行受け入れ(一回)四半期監査per-PR CI
構文 lint + 型別構造制約✓(ブロッキング)
LLM judge(逐語引用 + 次点比較)✓ 全辺一括✓(サンプル+疑義辺)✗(advisory コメントまで)
NLI(second opinion)✓(バッチ)任意✗(非ブロッキング警告まで)
構造異常スコア(型分布・次数)✓(pre-filter)✓(サンプル選定)
embedding/path 統計検出
  • 合意: LLM と NLI は失敗モードが独立 → 不一致 = 自動の人間レビューフラグ。人間は境界事例のみ(能力ベース分割)。
  • Gemini 固有: suspect link 機構(参照元 ADR の変更が接続先を「suspect」フラグ)・Status をハード制約に(Proposed から Accepted への supersedes は状態違反)。
  • Claude 固有: judge のキャリブレーションは定期(drift 検知)・正準メトリクスは F2(recall 重視)。

当リポへの含意(0117 監査拡張 ADR / ADR-0131 実装への反映)

  1. サンプル数の修正が最優先・最安価: 四半期監査は n=10/c=1 → n≈22/c=0(10% 誤り率を 90% 信頼で検出)へ。0117 拡張 ADR(KV 投入済・審査前)の「10 件・不一致 2 件」は v2 で更新する価値が高い。なお ADR-0131 本文の「受け入れ検査 10 件」は下限であり、実装がより厳しく(22 件・c=0)実施することは本文を変えずに可能。
  2. 監査の判定ロジックを確定できる: 判定基準 = ADR-0131 §2 の型定義表をルーブリックに、①両端本文のみで判定(内部知識遮断) ②逐語エビデンス引用を機械照合 ③型ごと二値 + 次点型比較 ④不一致時 self-consistency。記録には引用 span を残す(透明な監査証跡)。
  3. 初期移行の受け入れ検査はサンプルでなく LLM 全辺一括 + 人間裁定に格上げする価値あり(一回限り・~260 辺・オフライン)。サンプリングは「全辺チェック後のベースライン確認」に回す。
  4. 型別構造制約 lint の追加候補(決定的なので main の CI lint に追加可): supersedes の時系列方向(新→旧のみ)・同一ペアの矛盾型併存(supersedes と refines 等)・型別次数の外れ値レポート・本文に相手 ADR への言及がない辺の warning(ADR-0131 の warning ⑥と整合)。
  5. judge drift 検知: 毎監査で「確実に正しい」判定 5 件を人間検証し不一致率を追跡 — 0117 拡張 ADR の Confirmation に追加する価値あり。

未解決・要追加調査

  1. 合成的依存(3 ADR 以上のチェーン)の検証: NLI は premise/hypothesis 各 1 文書の枠組みで捕捉不可。LLM judge も 2 文書文脈が前提。チェーン整合は別レイヤ(グラフ推論)。
  2. 日本語 NLI の実測: 文献値(~80%・−5pp)は汎用ベンチ由来。当リポの ADR 文体・専門語彙での精度は held-out 評価セット(人間ラベル数十件)を作って実測するまで不明。
  3. CoT の利害(Claude=改善 / Gemini=フォーマット遵守を劣化)は唯一の明確な相違。構造化出力 + 逐語照合を使う場合の CoT 適用量は実装時に A/B で決める。
  4. 誤り率の事前分布: 全ての検出力計算は「許容誤り率」の置き方に依存。初期移行の全辺検証で実測ベースラインを得てから閾値(p0/p1)を較正するのが正道。

References(3モデル統合・重複排除・主要のみ)

  • Adam & Kliegr. Traceable LLM-based validation of statements in knowledge graphs. arXiv:2409.07507(precision 88% / recall 44% の一次ソース)
  • Tsaneva et al. Knowledge graph validation by integrating LLMs and human-in-the-loop. Information Processing & Management 62(5), 2025. https://www.sciencedirect.com/science/article/pii/S030645732500086X
  • Boylan et al. KGValidator. arXiv:2404.15923
  • Huang et al. Can LLMs be Good Graph Judge…(GraphJudge). arXiv:2411.17388
  • Sainz et al. Label Verbalization and Entailment for Effective Zero and Few-Shot Relation Extraction. EMNLP 2021
  • Fazelnia et al. Lessons from the Use of NLI in Requirements Engineering Tasks. arXiv:2405.05135
  • MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7 model card(XNLI 80.8%)
  • JSNLI(京大)/ JGLUE・JNLI. https://huggingface.co/datasets/shunk031/JGLUE
  • Pujara et al. Sparsity and Noise: Where Knowledge Graph Embeddings Fall Short. EMNLP 2017. https://aclanthology.org/D17-1184/
  • Bougiatiotis et al. PRGE. arXiv:2002.08762 / Paulheim. SDValidate(KG refinement survey 系)
  • Alturayeif et al. TraceLLM. arXiv:2602.01253
  • Rule of three. Jovanovic & Levy, American Statistician 51(2), 1997 / Wald. SPRT / AcceptanceSampling R package(超幾何 OC 曲線)

完全な引用・URL は各生結果 docs/research/rq-102-result-{openai,gemini,claude}.md を参照。