関連ADR:ADR-0133 へ
最終更新: 2026/06/22 18:56
RQ-102: 型付き辺の意味的正しさの検証ロジック — 3モデル調査 synthesis
調査: 2026-06-11、OpenAI o3-deep-research / Gemini deep-research / Claude managed-agent を同一プロンプト(RQ-102)で実行。生結果は
docs/research/rq-102-result-{openai,gemini,claude}.md。総コスト ~$6.73。 目的: ADR-0131 の型付き辺について、構文 lint(実在・対称・状態・非循環)では検出できない型の意味誤り(例:depends_onとすべき関係をrelates_toと宣言)を検証するロジックを確定する。ADR-0131 受理時に HITL で受容した残余リスク(サンプル 10 件の検出力不足)の定量化と、0117 監査拡張 ADR の判定基準の設計根拠を得る。
Executive Summary(3モデル合意・高確度)
- 現行のサンプル 10 件・不一致 2 件トリガーは統計的に弱い — 3モデルが独立に同じ計算に到達。 n=10 で不一致 0 でも誤り率
30% を否定できない(rule of three: 95% 上限 3/n)。誤り率 10% に対する現行トリガー(≥2 件)の検出力は **26%**(3 本とも一致: 26.2〜26.4%)。誤り率 10% を 90% 信頼で検出するには n≈22(c=0: 1 件でも全数監査)、5% なら n≈45。式は n = ln(1−conf)/ln(1−p)。サンプリング修正が最も安価で効果の大きい改善(Claude が明示・他 2 本も数表で同旨)。 - LLM-as-judge は最有力だが over-acceptance が実証された失敗モード。対策は文献が同一設計に収束している。 参照ベンチ(RDF トリプル検証・arXiv:2409.07507)は precision 88% / recall 44% で「人間監督必須」と著者明言(3 本とも引用)。収束した対策: ①LLM 内部知識を遮断し両端文書のみで判定 ②逐語エビデンス引用の強制(空白正規化後の完全一致を機械照合) ③型ごとの二値判定(1-5 スコアでなく) ④次点型との比較(宣言型 vs runner-up の二択仲裁) ⑤self-consistency 多数決(3〜10 票)。HITL 統合の実測: LLM 単独は F1 −5%、人間と組むと最小介入で F1 +5%(Inf. Processing & Management 2025)。
- NLI(含意)は LLM judge と失敗モードが独立な second opinion として有効。日本語ペナルティ ~5pp を予算化する。 型を仮説文に言語化し両端本文を premise に判定する型は実証済み(Sainz et al. EMNLP 2021: zero-shot 63% F1 / few-shot 69%)。多言語 NLI(mDeBERTa-v3)の XNLI 平均 80.8%・日本語資源は JSNLI/JNLI。文書長 premise と 3 文書以上の合成的依存は既知の弱点。
- embedding/path ベースの統計的誤り検出は ~130 ノードでは主要機構として不成立(3モデル一致)。 決定的根拠 = Pujara et al. EMNLP 2017「embedding は sparsity と unreliability の増大で劣化」。数千トリプル級が前提で、少数トリプルは丸暗記される。代替は軽量な型別構造制約(supersedes の時系列方向・status 整合・型別次数の外れ値・同一ペアの矛盾型併存)で、決定的なので CI lint に追加できる。
- 配置の合意: per-PR CI に LLM/NLI を置かない。LLM 検証は一回限りの移行受け入れと定期監査に集約する。 CI は決定的検査(構文 lint + 型別構造制約)のみ。初期移行は一回限りのコストなので LLM による全辺一括検証に投資する価値がある(誤辺の早期修正は伝播後の手直しより遥かに安い)。継続運用は「能力ベースのタスク分割」(高確信は自動・低確信/不一致は人間)が full automation にも全件人間確認にも勝る。
設問別サマリ(合意 / 相違)
Q1 — LLM-as-judge 設計
- 合意: precision 優先(誤辺への false OK を出さない)。対策込みで precision 85〜95% が報告水準。構造化出力
{relation_supported, evidence_snippets, best_alternative_type}。 - OpenAI 固有: 同一トリプルへプロンプトを変えて 3 回回答させる多数決(Tsaneva et al.)。逆方向関係の整合チェック(A supersedes B ⇔ B superseded_by A の回答一致)。
- Gemini 固有: Extractor-Verifier の 2 役分離 — Verifier は提案ラベルと逐語引用のみを受け取り(文書全体を見ずに)引用がラベルを支持するか盲検評価。CoT パラドックスの警告: 「show your work」指示は厳密フォーマット・字句制約の遵守をかえって劣化させる(Claude のレポートは CoT 改善側 — 唯一の明確な相違点)。
- Claude 固有: KGValidator の失敗モード「細粒度概念の混同」は
depends_onvsrelates_toの区別と同型と指摘。pairwise 比較は位置入替で position bias 対策。judge drift 検知: 毎監査で「確実に正しい」判定から 5 件を人間検証し不一致率を時系列追跡(単発キャリブレーション不十分)。
Q2 — NLI・含意ベース
- 合意: label verbalization + entailment は実証済みパターン。閾値は entailment 確率の二値化 + held-out で調整。P_contradiction 高は即レビュー。
- 相違(日本語の扱い): OpenAI/Claude = translate-test(日→英訳 + 強い英語 NLI)は有効な選択肢(英語
90% → 翻訳経由 ~77〜85%)。Gemini = translate-then-verify は技術ニュアンス喪失で「構造的に欠陥」と断定し、国産 SLM(Swallow-8B/ELYZA-JP-8B 量子化ローカル)+ GraphRAG を推奨。→ 当リポは LLM judge が主・NLI は second opinion なので、まず多言語 NLI 直接適用(80%)で十分、というのが統合判断。 - Claude 固有の警告: 「多言語 NLI で 90% 前後を謳うモデルはテストミスの可能性が高い」(モデルカード由来)。GPT-4 の日本語 79.9% vs 英語 85.5%(MMLU)から ~5pp の日本語ペナルティを予算化。
Q3 — 統計的誤り検出の小規模適用性
- 合意: 主要機構として不採用。「この規模では rules and eyeballs(ルール + 目視)が最良」(OpenAI)。
- Gemini 固有: SDValidate(述語ごとの対象型分布との cosine 類似度・テキスト非依存)を初段フィルタに — 統計が貧弱でも「型分布から見てありえない辺」の粗いフラグには使える。
- Claude 固有: PRGE の知見「最低スコア triple の 85% 超が実際に誤り」→ 怪しさランキングで監査対象を選ぶ(reranking)用途なら小規模でも価値が残る。
Q4 — サンプリング設計
- 合意: Executive Summary 1 の数表。非対称コスト(見逃し > 誤警報)では c=0(1 件で行動)に倒す。
- OpenAI 固有: 二段階 adaptive sampling — 初回 10 件で 1 件発見 = イエローフラグ → 追加 10〜20 件 → 2 件目でエスカレート。発見時は同一型の辺への標的フル監査(全辺総当たりより効率的)。層化サンプリング(型ごと比例配分)。
- Gemini 固有: 有限母集団(~260 辺)には超幾何分布が正確 — N=260・n=25・≥2 件トリガーで検出力 ~75%。偽陽性パラドックスの警告: 誤り率 5% で TPR 85%/FPR 10% のとき、フラグの ~70% が誤警報になりレビュー側の信頼を破壊 → False Positive budget をポリシーとして明示。
- Claude 固有: 現行案を「n=10, c=1 の受入抜取計画」と形式化し OC 曲線で評価。代替に SPRT 逐次計画(p0=2%・p1=10%・α=β=10%・上限 n≈30、通常はより早く終結)。
Q5 — 統合パターン
- 合意の Method × Placement マトリクス:
| 手法 | 移行受け入れ(一回) | 四半期監査 | per-PR CI |
|---|---|---|---|
| 構文 lint + 型別構造制約 | ✓ | ✓ | ✓(ブロッキング) |
| LLM judge(逐語引用 + 次点比較) | ✓ 全辺一括 | ✓(サンプル+疑義辺) | ✗(advisory コメントまで) |
| NLI(second opinion) | ✓(バッチ) | 任意 | ✗(非ブロッキング警告まで) |
| 構造異常スコア(型分布・次数) | ✓(pre-filter) | ✓(サンプル選定) | ✗ |
| embedding/path 統計検出 | ✗ | ✗ | ✗ |
- 合意: LLM と NLI は失敗モードが独立 → 不一致 = 自動の人間レビューフラグ。人間は境界事例のみ(能力ベース分割)。
- Gemini 固有: suspect link 機構(参照元 ADR の変更が接続先を「suspect」フラグ)・Status をハード制約に(Proposed から Accepted への supersedes は状態違反)。
- Claude 固有: judge のキャリブレーションは定期(drift 検知)・正準メトリクスは F2(recall 重視)。
当リポへの含意(0117 監査拡張 ADR / ADR-0131 実装への反映)
- サンプル数の修正が最優先・最安価: 四半期監査は n=10/c=1 → n≈22/c=0(10% 誤り率を 90% 信頼で検出)へ。0117 拡張 ADR(KV 投入済・審査前)の「10 件・不一致 2 件」は v2 で更新する価値が高い。なお ADR-0131 本文の「受け入れ検査 10 件」は下限であり、実装がより厳しく(22 件・c=0)実施することは本文を変えずに可能。
- 監査の判定ロジックを確定できる: 判定基準 = ADR-0131 §2 の型定義表をルーブリックに、①両端本文のみで判定(内部知識遮断) ②逐語エビデンス引用を機械照合 ③型ごと二値 + 次点型比較 ④不一致時 self-consistency。記録には引用 span を残す(透明な監査証跡)。
- 初期移行の受け入れ検査はサンプルでなく LLM 全辺一括 + 人間裁定に格上げする価値あり(一回限り・~260 辺・オフライン)。サンプリングは「全辺チェック後のベースライン確認」に回す。
- 型別構造制約 lint の追加候補(決定的なので main の CI lint に追加可): supersedes の時系列方向(新→旧のみ)・同一ペアの矛盾型併存(supersedes と refines 等)・型別次数の外れ値レポート・本文に相手 ADR への言及がない辺の warning(ADR-0131 の warning ⑥と整合)。
- judge drift 検知: 毎監査で「確実に正しい」判定 5 件を人間検証し不一致率を追跡 — 0117 拡張 ADR の Confirmation に追加する価値あり。
未解決・要追加調査
- 合成的依存(3 ADR 以上のチェーン)の検証: NLI は premise/hypothesis 各 1 文書の枠組みで捕捉不可。LLM judge も 2 文書文脈が前提。チェーン整合は別レイヤ(グラフ推論)。
- 日本語 NLI の実測: 文献値(~80%・−5pp)は汎用ベンチ由来。当リポの ADR 文体・専門語彙での精度は held-out 評価セット(人間ラベル数十件)を作って実測するまで不明。
- CoT の利害(Claude=改善 / Gemini=フォーマット遵守を劣化)は唯一の明確な相違。構造化出力 + 逐語照合を使う場合の CoT 適用量は実装時に A/B で決める。
- 誤り率の事前分布: 全ての検出力計算は「許容誤り率」の置き方に依存。初期移行の全辺検証で実測ベースラインを得てから閾値(p0/p1)を較正するのが正道。
References(3モデル統合・重複排除・主要のみ)
- Adam & Kliegr. Traceable LLM-based validation of statements in knowledge graphs. arXiv:2409.07507(precision 88% / recall 44% の一次ソース)
- Tsaneva et al. Knowledge graph validation by integrating LLMs and human-in-the-loop. Information Processing & Management 62(5), 2025. https://www.sciencedirect.com/science/article/pii/S030645732500086X
- Boylan et al. KGValidator. arXiv:2404.15923
- Huang et al. Can LLMs be Good Graph Judge…(GraphJudge). arXiv:2411.17388
- Sainz et al. Label Verbalization and Entailment for Effective Zero and Few-Shot Relation Extraction. EMNLP 2021
- Fazelnia et al. Lessons from the Use of NLI in Requirements Engineering Tasks. arXiv:2405.05135
- MoritzLaurer/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7 model card(XNLI 80.8%)
- JSNLI(京大)/ JGLUE・JNLI. https://huggingface.co/datasets/shunk031/JGLUE
- Pujara et al. Sparsity and Noise: Where Knowledge Graph Embeddings Fall Short. EMNLP 2017. https://aclanthology.org/D17-1184/
- Bougiatiotis et al. PRGE. arXiv:2002.08762 / Paulheim. SDValidate(KG refinement survey 系)
- Alturayeif et al. TraceLLM. arXiv:2602.01253
- Rule of three. Jovanovic & Levy, American Statistician 51(2), 1997 / Wald. SPRT / AcceptanceSampling R package(超幾何 OC 曲線)
完全な引用・URL は各生結果
docs/research/rq-102-result-{openai,gemini,claude}.mdを参照。