bizlp Synthesis 評価軸選定: 業界 MCDA フレームワーク調査と標準テンプレート提言

TL;DR

bizlp の Multi-LLM Synthesis では、ATAM/CBAM (SEI) + MADR Decision Drivers + LLM-as-a-Judge (G-Eval) の 3 系統をハイブリッド適用し、固定軸 5 個 + 案件軸 0–3 個・5 段階スコア・加重和集約・低信頼時 LLM Critic 検証という標準テンプレートを採用すべきである。
AHP/TOPSIS/PROMETHEE の数学的厳密手法は 1 人法人スケールでは過剰であり、Equal Weight + 重要度ラベル (Critical / High / Medium) で十分。pairwise comparison は 4 軸超で組合せ爆発するため省略可。
RQ-050 / RQ-051 の遡及検証は「軸の業界対応表」を後付けで作成し、決定そのものは維持 (Backward-compatible enrichment)。今後の RQ-053 以降は標準テンプレートを強制適用する。

Key Findings

MCDA 系 (AHP/TOPSIS/PROMETHEE/ELECTRE/MAUT/WSM) は数学的厳密性が高いが、1 人法人の Synthesis では Weighted Sum Model (WSM) 程度に簡略化するのが現実的。
ソフトウェアアーキテクチャ専用 (SAAM/ATAM/CBAM) は SEI Carnegie Mellon が標準化しており、特に ATAM の Utility Tree (品質属性ツリー) と CBAM の ROI 評価 が bizlp の Standard/Critical 区分にマッチする。
ADR 系 (MADR 4.0.0 / Zimmermann SOAD / arc42) には「Decision Drivers」セクションが共通標準として存在し、これが評価軸の業界共通アンカーとなる。arc42 公式は明示的に「top three (max five) quality goals」を推奨 (docs.arc42.org/section-1/)。
Multi-LLM 系 (G-Eval / LLM-as-a-Judge / Multi-Agent Debate / LLM-Blender / AutoGen) は 2023年3月〜2024年2月の 12 か月間に集中的に整備された (G-Eval arXiv:2303.16634 2023-03、Du et al. arXiv:2305.14325 2023-05、MT-Bench arXiv:2306.05685 2023-06、LLM-Blender arXiv:2306.02561 2023-06、AutoGen arXiv:2308.08155 2023-08、More Agents arXiv:2402.05120 2024-02)。G-Eval は SummEval ベンチマークで人間判定との Spearman 相関 0.514 を達成し、 coherence/consistency/fluency/relevance の 4 軸全てで既存ベースラインを上回った (Liu et al. 2023, arXiv:2303.16634)。
軽量フレームワーク (DACI/RACI/CBA/Wardley/Cynefin) はステークホルダー多数を前提とし、1 人法人では DACI/RACI は不要、Cynefin と Wardley は補助的に使用可能。
重み付けは Equal Weight + 重要度ラベルで十分。AHP pairwise は n≥5 で組合せ数が爆発 (n=5 で 10 比較、n=7 で 21 比較) し、bizlp スケールでは Analysis Paralysis を招く。
アンチパターンとして post-hoc rationalization, confirmation bias, analysis paralysis が確認されており、bizlp PR #811/#814 close 経緯はまさにこの 3 つに該当する可能性が高い。

Q1. 多基準意思決定分析 (MCDA) の主要フレームワーク網羅

フレームワーク	提唱者・初公開年	適用領域	一次資料	想定組織規模
AHP (Analytic Hierarchy Process)	Saaty, T.L. 1977/1980	一般 MCDM, 政策, リソース配分	Saaty (1980) The Analytic Hierarchy Process, McGraw-Hill, New York	中〜大規模 (専門家チーム前提)
TOPSIS	Hwang, C.L. & Yoon, K. 1981	代替案ランキング, ベンダー選定	Hwang & Yoon (1981) Multiple Attribute Decision Making: Methods and Applications, Springer LNEMS 186	中〜大規模
PROMETHEE I/II	Brans, J.P. 1982	プロジェクト選定, アウトランキング	Brans (1982) “L’ingénierie de la décision; La méthode PROMETHEE”, Université Laval, Quebec	中〜大規模
ELECTRE I–V	Roy, B. 1965/1968	多基準アウトランキング	Roy (1968) “Classement et choix en présence de points de vue multiples”, RIRO 8, pp.57–75	中〜大規模
WSM (Weighted Sum Model)	Fishburn 1967 (classical)	軽量 MCDM	Fishburn (1967) “Additive Utilities with Incomplete Product Set”, Operations Research	小〜中規模
WPM (Weighted Product Model)	Bridgman 1922 / Miller & Starr 1969	単位非互換時の集約	Triantaphyllou (2000) Multi-Criteria Decision Making Methods	小〜中規模
MAUT (Multi-Attribute Utility Theory)	Keeney & Raiffa 1976	効用理論ベース	Keeney & Raiffa (1976) Decisions with Multiple Objectives, Wiley	大規模 (公共政策等)
SAAM	Kazman, Abowd, Webb 1994	ソフトウェアアーキテクチャ評価	Kazman et al. (1994) ICSE-16, pp.81–90, DOI 10.1109/ICSE.1994.296768	中〜大規模ソフトウェア
ATAM	Kazman, Klein, Clements 1998	アーキテクチャトレードオフ分析	CMU/SEI ATAM Collection, https://www.sei.cmu.edu/library/the-architecture-tradeoff-analysis-method/	中〜大規模
CBAM	Kazman, Asundi, Klein 2002	経済性ベース設計判断	CMU/SEI-2002-TR-035, https://resources.sei.cmu.edu/library/asset-view.cfm?assetid=5785	中〜大規模
SOAD / ADMentor	Zimmermann, O. 2009/2015	アーキテクチャ決定モデリング	Zimmermann (2009) IBM Research; WICSA 2015 https://ozimmer.ch/assets/admentor-wicsa2015ubmissionv11nc.pdf	中規模以上
MADR (Markdown ADR)	Kopp, Armbruster, Zimmermann 2018 (v1) / v4.0.0 2024-09-17	ADR 標準テンプレート	https://adr.github.io/madr/	1 人〜大規模
arc42	Starke & Hruschka 2008〜	アーキテクチャ文書化	https://docs.arc42.org/	小〜大規模
DACI	Atlassian	チーム意思決定	https://www.atlassian.com/team-playbook/plays/daci	中〜大規模 (複数ステークホルダー)
RACI	古典的 (1950s〜)	役割分担マトリクス	各種出典	中〜大規模
Choosing By Advantages (CBA)	Suhr, J. 1999	リーン建設, 品質志向決定	Suhr (1999) The Choosing By Advantages Decisionmaking System, HRD Press	小〜大規模
Wardley Mapping	Wardley, S. 2005〜	戦略マッピング, 市場進化	https://learnwardleymapping.com/ (Creative Commons)	小〜大規模
Cynefin	Snowden, D. 1999 / Snowden & Boone 2007	状況分類 (Clear/Complicated/Complex/Chaotic/Disorder)	Snowden & Boone (2007) “A Leader’s Framework for Decision Making”, Harvard Business Review Nov 2007	小〜大規模
LLM-as-a-Judge (MT-Bench)	Zheng et al. 2023	LLM 出力評価	arXiv:2306.05685	個人〜大規模
G-Eval	Liu et al. 2023 (EMNLP)	LLM ベース NLG 評価	arXiv:2303.16634, DOI 10.18653/v1/2023.emnlp-main.153	個人〜大規模
Multi-Agent Debate	Du et al. 2023 / Liang et al. 2023	LLM 推論強化	arXiv:2305.14325 (Du); Liang et al. 2023 (CIAR)	個人〜大規模
LLM-Blender	Jiang, Ren, Lin 2023 (ACL)	LLM アンサンブル	arXiv:2306.02561, DOI 10.18653/v1/2023.acl-long.792	中規模以上
More Agents Is All You Need	Li et al. 2024	サンプリング+多数決アンサンブル	arXiv:2402.05120, TMLR 2024 (OpenReview bgzUSZ8aeg)	個人〜大規模
AutoGen GroupChat / Critic	Wu et al. 2023 (MS Research)	Multi-Agent 対話フレームワーク	arXiv:2308.08155	個人〜大規模
LangGraph Supervisor/Network/Hierarchical	LangChain	Multi-Agent オーケストレーション	https://docs.langchain.com/oss/python/langchain/multi-agent	個人〜大規模

Q2. 各フレームワークの評価軸選定アプローチ比較

フレームワーク	軸選定方法	重み付け	スコアリング粒度	集約手法
AHP	階層的に案件ごと	Pairwise comparison + eigenvector	1–9 Saaty スケール	加重和 (eigenvector weights)
TOPSIS	案件ごと固定	AHP/Entropy/直感の併用が多い	数値ベクトル	正/負理想解への Euclid 距離
PROMETHEE	案件ごと固定	任意の正規化 weights	preference function (6 種)	純フロー (positive – negative)
ELECTRE	案件ごと固定	weights + concordance/discordance threshold	qualitative/quantitative	アウトランキング関係
WSM	固定 or 案件ごと	Equal weight or 直感	1–5 / 1–10	加重算術平均
WPM	固定 or 案件ごと	同上	比率スケール	加重幾何平均
MAUT	案件ごと	utility function 構築	0–1 効用値	加重和
SAAM	シナリオベース (案件ごと)	暗黙 (シナリオ重要度)	qualitative (direct/indirect impact)	シナリオ衝突度カウント
ATAM	Utility Tree (3–7 quality attributes)	Importance × Difficulty (各 H/M/L)	qualitative + scenario	risks / sensitivity / tradeoff point 識別
CBAM	ATAM 拡張 + ROI	utility curve + 経済的影響	benefit 0–100 + cost	ROI = benefit/cost ranking
MADR	Decision Drivers (案件ごと、optional)	重要度ラベルが慣習	pros/cons qualitative	選択肢比較 (chosen option + reasons)
arc42	top 3 (max 5) quality goals (固定)	暗黙 (stakeholder priority)	scenario-based	trade-off の明示
DACI	options considered の評価軸 (案件ごと)	weighted pros/cons	qualitative or weighted	Approver 単独決定
CBA	案件ごと (Factor → Criterion → Attribute → Advantage)	Importance of Advantage (IofA, 0–100)	numeric importance	IofA 合計 + cost 別比較
Wardley	軸固定 (Visibility × Evolution)	n/a (空間配置)	進化段階 (Genesis/Custom/Product/Commodity)	マップ全体での戦略
Cynefin	軸固定 (Ordered/Unordered, Cause-effect knowability)	n/a	領域分類	Sense-Categorize / Sense-Analyze-Respond / Probe-Sense-Respond / Act-Sense-Respond
LLM-as-a-Judge	評価対象タスクに依存	Equal or rubric-driven	1–5/1–10 or pairwise	average / win-rate
G-Eval	固定 4 軸 (Coherence/Consistency/Fluency/Relevance)	Equal	1–5 + probability weighted	確率加重和
Multi-Agent Debate	task-dependent	通常 Equal (majority vote)	各エージェントの最終回答	majority vote / consensus
LLM-Blender	PairRanker による pairwise	学習された pairwise score	pairwise win/lose	GenFuser による fusion
AutoGen GroupChat	動的 (GroupChatManager が選択)	LLM-driven	自由形式	LLM Critic + GroupChat ループ
LangGraph Supervisor	LLM が次エージェント選択	LLM-driven	n/a (route 判定)	Supervisor 最終 synthesis

Q3. ソフトウェアアーキテクチャでの MCDA 適用事例

SAAM (Kazman 1994, ICSE-16)

評価軸の典型例: Modifiability, Portability, Reusability (シナリオを通じて評価)
軸数の典型: シナリオベースで 5–20 個 (軸そのものより衝突シナリオ数が重要)
重み付けの慣習: シナリオ優先度ベース (直接 / 間接の二段階)
一次資料: Kazman, Abowd, Webb (1994) DOI 10.1109/ICSE.1994.296768

ATAM (Kazman, Klein, Clements 1998, CMU/SEI)

評価軸の典型例: SEI 公式定義として「modifiability, security, performance, availability」が中核。これに reliability, usability, testability を追加することが多い。
軸数の典型: Utility Tree のトップノードで 4–7 個
重み付けの慣習: 各シナリオに (Importance, Difficulty) を H/M/L で付与。重みではなく risks / sensitivity points / tradeoff points の識別を重視。
一次資料: CMU/SEI ATAM Collection, https://www.sei.cmu.edu/library/the-architecture-tradeoff-analysis-method/

CBAM (Kazman, Asundi, Klein 2002)

評価軸: ATAM の品質属性 + 経済性 (cost, benefit, schedule)
軸数: ATAM と同じ 4–7 軸 + cost/benefit/ROI
重み付け: utility curve (benefit を 0–100 で正規化) + cost を別系統で計測 → ROI ランキング
一次資料: CMU/SEI-2002-TR-035, https://resources.sei.cmu.edu/library/asset-view.cfm?assetid=5785

Zimmermann ADMentor / SOAD (2009/2015)

評価軸: Problem-Option-Outcome モデルで、Problem ごとに固有の Decision Drivers を持つ。
軸数: Problem ごとに 2–6 個
重み付け: 暗黙 (Problem の階層的優先度)
一次資料: Zimmermann (2015) “Architectural Decision Guidance across Projects”, WICSA, https://ozimmer.ch/assets/admentor-wicsa2015ubmissionv11nc.pdf

arc42 Quality Goals

評価軸: 「top three (max five) quality goals」が arc42 公式の推奨数
軸数: 3–5 個 (公式推奨)
公式 quote (docs.arc42.org/section-1/): “The top three (max five) quality goals for the architecture whose fulfillment is of highest importance to the major stakeholders. … Don’t confuse them with project goals.”
Tip 1-16 quote: “Here, in section 1.2, you describe only a handful (top 3-5) of these requirements. Use brief explanations with scenarios.”
重み付け: 暗黙 (top-3 の順序)

MADR Decision Drivers (Kopp/Armbruster/Zimmermann 2018, v4.0.0 2024-09-17)

評価軸: Decision Drivers (optional) で「force, concern」を列挙
軸数: 通常 2–5 個
重み付け: ラベル方式が一般的 (Primary / Secondary)
一次資料: https://adr.github.io/madr/decisions/adr-template.html

Q4. ADR / Synthesis における評価軸選定の業界事例

業界実装	評価軸の出典・選定根拠
Spotify Engineering	RFC → ADR 二段階。RFC で問題定義・代替案提示、ADR で「significant decision」を記録。明示的評価軸はチーム単位 (Creator Team 等)。出典: https://engineering.atspotify.com/2020/04/when-should-i-write-an-architecture-decision-record
GitLab Handbook	Engineering decisions は明示的な評価軸より「公開議論プロセス」を重視 (handbook.gitlab.com)。MR/Issue ベース。[要追加調査 — 公式 Handbook の具体的な評価軸ドキュメントは未確認]
ThoughtWorks Tech Radar	Hold / Assess / Trial / Adopt の 4 環。 Trial 入りには “production usage” が必須 (ThoughtWorks FAQ thoughtworks.com/radar/faq verbatim: “We can only put blips into the Trial ring when we have experience of using that blip for production software”)。 Adopt 入りの基準は別: “we only include items when we think it would be a poor and potentially irresponsible choice not to use them given the appropriate project context”。 Mason’s Razor (build-your-own-technology-radar): “for any of the technologies in the adopt ring, I will make fun of you at the pub if you aren’t using them”。
AWS Well-Architected	6 pillars: Operational Excellence, Security, Reliability, Performance Efficiency, Cost Optimization, Sustainability。 AWS 公式が white paper として標準化、各 pillar に質問群あり。
Google Cloud Architecture Framework	5 pillars: Operational excellence, Security/Privacy/Compliance, Reliability, Cost optimization, Performance optimization.
Anthropic / OpenAI / Google の LLM 評価軸	Anthropic は HHH (Helpful, Honest, Harmless) を公開。OpenAI は accuracy / safety / robustness / alignment 等。MT-Bench (Zheng et al. 2023, arXiv:2306.05685) は LMSYS blog (lmsys.org/blog/2023-06-22-leaderboard) verbatim で 8 カテゴリ × 各 10 マルチターン質問 = 計 160 問: “Writing, Roleplay, Extraction, Reasoning, Math, Coding, Knowledge I (STEM), and Knowledge II (humanities/social science).”

評価軸の出典・選定根拠の共通点:

ATAM/CBAM の品質属性 (modifiability/security/performance/availability) が SaaS 業界で広く流用されている
AWS/GCP Pillar は クラウドアーキテクチャレビュー に特化した「業務分割型」軸
ThoughtWorks Radar の “Trial 入りには production usage が必須” という基準は 証拠基準 の好例 (Adopt はさらにその上)
LLM 評価では G-Eval の 4 軸 + MT-Bench 8 カテゴリが事実上の標準

Q5. 軽量フレームワークの適用領域比較

FW	適用領域・フェーズ	軸数 (典型)	1 人法人適用性 (1–5)	LLM Synthesis 親和性
DACI	クロス組織意思決定。Driver/Approver/Contributors/Informed	n/a (役割 4 つ)	1 (1 人法人では Driver=Approver=Contributor で機能しない)	低 (ステークホルダー多数前提)
RACI	プロジェクト責任分担	n/a (役割 4 つ)	1	低
Choosing By Advantages	設計案の選定 (リーン建設発)	Factor: 3–10, Advantage 比較	4 (1 人でも論理的に適用可)	中 (Advantage の言語化が LLM に親和的)
Wardley Mapping	戦略マッピング, 進化分析	軸 2 つ (Visibility × Evolution)	3 (Synthesis より戦略レイヤー向き)	中 (LLM で map 生成支援可)
Cynefin	状況分類 (どの方法論を使うべきか)	領域 5 つ	5 (1 人でも完全適用可)	高 (Triage 区分との親和性大)

結論: 1 人法人 + AI Agent スケールでは Cynefin (状況判定) + Choosing By Advantages (Synthesis 集約) が最も親和性が高い。DACI/RACI は不要。

Q6. 複数 LLM の出力突合 (Multi-Model Synthesis) に特化した評価軸選定

研究	評価軸選定パターン	bizlp への適用可能性
LLM-as-a-Judge / MT-Bench (Zheng et al. 2023, arXiv:2306.05685)	Single Output Scoring / Single Output with Reference / Pairwise Comparison の 3 形式。 MT-Bench は 8 カテゴリ × 10 質問 = 160 問 (Writing, Roleplay, Extraction, Reasoning, Math, Coding, STEM, humanities)	3 モデル並列出力に Pairwise で適用可
G-Eval (Liu et al. 2023, arXiv:2303.16634)	固定 4 軸 Coherence, Consistency, Fluency, Relevance を 1–5 スケールで評価、確率加重和で集約。SummEval ベンチマークで人間との Spearman 相関 0.514 を達成し、全 4 軸でベースラインを上回る。	bizlp の Synthesis 標準軸の最有力候補
Multi-Agent Debate (Du et al. 2023, arXiv:2305.14325)	同一モデルの複数インスタンスが相互批評。“Society of Minds”。事実性 & 推論で改善。	RQ-050/051 のような 3 モデル並列出力の合意形成に直接適用可
Multi-Agent Debate (Liang et al. 2023)	tit-for-tat / 賛成・反対役割。moderate disagreement で最高性能。 CIAR データセット。	反論役割を明示的に持たせる設計が可能
Self-Consistency (Wang et al. 2023, ICLR 2023, arXiv:2203.11171)	“Self-Consistency Improves Chain of Thought Reasoning in Language Models”。複数の reasoning path をサンプリングし最終回答を majority vote で marginalize。 GSM8K +17.9%, SVAMP +11.0% 改善。	Reasoning タスクで closed-ended 集約として有効
LLM-Blender (Jiang et al. 2023, ACL, arXiv:2306.02561)	PairRanker (pairwise 順位付け) + GenFuser (上位 K の融合生成)。GPT-Rank がランキング教師信号。	Synthesis 出力の品質向上に直接適用
More Agents Is All You Need (Li et al. 2024, TMLR, arXiv:2402.05120)	サンプリング数 N を増やし、closed-ended は majority vote、open-ended は BLEU 累積類似度で順位付け。	3 モデル並列調査の集約手法として直接適用可
AutoGen (Wu et al. 2023, arXiv:2308.08155)	GroupChatManager + Critic agent。Critic system prompt verbatim: “Critic. Double check plan, claims, code from other agents and provide feedback. Check whether the plan includes adding verifiable info such as source URL.”	LangGraph 上の Synthesis ノードに Critic 役を追加できる
LangGraph (LangChain)	Subagents / Handoffs / Skills / Router / Custom workflow (現行ドキュメント)。レガシー命名は Network / Supervisor / Hierarchical。Supervisor 例: “You are a supervisor tasked with managing a conversation between the following workers… respond with the worker to act next … When finished, respond with FINISH.”	ADR-0019 ですでに採用済み — Supervisor pattern で Synthesis ノードを構築

bizlp の「3 モデル並列調査 → Synthesis」に適用可能な評価軸選定パターン (抽出)

固定 4 軸 (G-Eval 由来): Coherence / Consistency / Fluency / Relevance
bizlp 特化 1 軸: ADR-0020 Triage 適合度 (Light/Standard/Critical に整合しているか)
集約手法: 上位 K (=2) を pairwise で比較し、Synthesis 後に Critic agent が再検証 (Du et al. 2023 + AutoGen Critic の組合せ)
Fallback: 3 モデル間で不一致が大きい場合 (entropy 高)、Multi-Agent Debate を 1 ラウンド起動

Q7. 評価軸の重み付け手法とアンチパターン

主要手法の比較

手法	メリット	デメリット	bizlp 適合性
AHP pairwise comparison	整合性指標 (CR) で論理矛盾検出可、理論的に厳密	n=5 で 10 比較、n=7 で 21 比較が必要。1 人法人では時間コスト過大 (AHP-express で n-1 比較に簡略化可能 — Leal 2019, DOI 10.1016/j.mex.2019.11.021)	△ (Critical 案件のみ)
Equal weighting	単純、bias 最小化、説明容易	軸の重要度差を反映できない	◎ (Light/Standard 案件)
重要度ラベル (Critical/High/Medium/Low)	Equal weight より柔軟、AHP より軽量	主観的	◎ (bizlp 推奨)
Entropy method (Shannon 1948 由来)	データ駆動、客観的	学習データが必要	△ (将来検討)
DEA (Data Envelopment Analysis)	効率フロンティアで客観評価	複雑、ハイブリッド AHP-DEA も提案あり	× (過剰)

アンチパターン (bizlp PR #811/#814 に直接該当)

Post-hoc rationalization (事後合理化): 既に採用したい案がある状態で、その案に有利な評価軸を後付けで作成する。RQ-051 の 7 節構造選定で疑われる。
Confirmation bias: 採用案を支持する証拠だけを軸として採用。
Analysis paralysis: 軸が多すぎて決定不能。Miller (1956) の 7±2 ルールに基づき AHP も 7 軸前後を上限とするのが通例。
Spurious quantification: qualitative な比較を無理に数値化 (CBA の Suhr が批判する weighting-and-rating の典型問題)。

対策

Pre-registration of criteria: 評価軸は 代替案リストを見る前に確定する (Bezos Type 1/2 区分に類似)
Devil’s advocate: AutoGen Critic / Multi-Agent Debate の “negative role” を活用
5 軸上限: arc42 の “max 5 quality goals” を bizlp Synthesis にも適用

Q8. 1 人法人 + AI Agent スケールでの省略可能項目

bizlp MVP 必須項目リスト (8 項目)

Context & Problem Statement (MADR 必須)
Decision Drivers = 評価軸 (3–5 個、arc42 推奨)
Considered Options (3 モデルの並列出力)
Evaluation Matrix (option × criteria、5 段階スコア)
Decision Outcome (chosen option + reasoning)
Triage 整合性チェック (ADR-0020 Light/Standard/Critical)
Consequences (positive / negative / neutral, MADR v4.0.0)
Confirmation (検証方法、MADR v4.0.0 optional だが Standard/Critical では必須化)

省略可能項目リスト

項目	出典 FW	省略理由
Driver/Approver/Contributors/Informed の 4 役割明記	DACI/RACI	1 人法人で意味なし
AHP pairwise comparison matrix	AHP	1 人で 21 比較は時間コスト過大
TOPSIS / PROMETHEE の Euclid 距離計算	TOPSIS/PROMETHEE	数学的厳密性が過剰
Utility curve (CBAM)	CBAM	ROI が事業判断レベルのみ必要
Stakeholder workshop (ATAM Phase 1)	ATAM	1 人法人で workshop 不要
Quality Tree の詳細展開	ATAM/arc42	top-3 軸で十分
Sensitivity / Tradeoff point の網羅的識別	ATAM	Critical 案件のみで実施
Wardley Map の作成	Wardley	戦略レイヤーであり Synthesis では省略可
8 カテゴリ MT-Bench 評価	LLM-as-a-Judge	bizlp は 4 軸 G-Eval で十分

Q9. RQ-050 / RQ-051 Synthesis への遡及適用案

手順

業界対応表の作成: RQ-050/051 の独自評価軸を、Q1–Q3 のフレームワーク軸 (ATAM 品質属性、MADR Decision Drivers、G-Eval 4 軸) に 後付けでマッピング。
マッピング不能軸の特定: 業界標準にない軸が見つかった場合、その軸の正当性を Critical 度合いで判定。
覆すか維持か: 既存決定は Backward-compatible enrichment とし、ADR 本体は維持。「Synthesis Addendum」で評価軸の業界対応表を追記する形を推奨。

RQ-050 (ADR Scope 4 階層: Corporate/Platform/Product/Ops) の再評価

既存独自評価軸 (推定): 階層粒度、組織責任分界、CodeOps 統合容易性、phased backfill 可能性
業界対応:
- 階層粒度 → arc42 section 9 (Architecture Decisions の粒度) と整合
- 組織責任分界 → AWS Well-Architected “Operational Excellence” pillar に対応
- CodeOps 統合 → ThoughtWorks Tech Radar “Trial 入りには production usage が必須” 基準と整合
- phased backfill → ATAM sensitivity point の概念に対応
判定: 4 軸とも業界標準に対応物あり → 既存決定維持、Addendum 追加

RQ-051 (Lint 規約 7 節構造 / 5 カテゴリ / 6 メタ項目) の再評価

既存独自評価軸 (推定): 構造の網羅性、カテゴリ分割の粒度、メタ項目の運用負荷
業界対応:
- 7 節構造 → MADR 4.0.0 の section 構造 (status, context, drivers, options, decision outcome, consequences, confirmation, more information の 8 セクション) と類似 — 1 節差は許容範囲
- 5 カテゴリ → AWS 6 pillars / arc42 quality goals top-5 と整合
- 6 メタ項目 → MADR YAML frontmatter (status, date, deciders, consulted, informed) と類似
判定: 業界標準と整合可能 → 既存決定維持、Addendum 追加。ただし「メタ項目 6 個」は arc42 推奨の “max 5” を 1 つ超えており、運用負荷を再評価する余地あり。

既存決定を覆す判断基準

業界標準に対応物が 複数フレームワークで皆無 の場合 → 独自軸の正当性を再検証 (Critical Reopen)
ATAM sensitivity point / tradeoff point に対応する軸が欠落している場合 → 追加検討
アンチパターン (post-hoc rationalization 等) が明確に該当する場合 → 軸を業界準拠で置換

遡及適用方針

RQ-050/051 は Backward-compatible enrichment (Addendum 形式) で維持。
RQ-053 以降は新標準テンプレート (Q10) を強制適用。
ADR-0019/0020 を否定する変更は行わない。

Q10. bizlp Synthesis 標準テンプレートの推奨

標準テンプレート構造 (Markdown 例)

---
id: RQ-053-synthesis
status: proposed  # proposed | accepted | superseded
date: 2026-05-17
triage: Standard  # Light | Standard | Critical (ADR-0020 準拠)
deciders: [代表取締役]
models_consulted: [Claude, Gemini, GPT]
---

# RQ-053 Synthesis: {決定タイトル}

## 1. Context & Problem Statement
{問題の背景、なぜ意思決定が必要か}

## 2. Decision Drivers (評価軸)
本 Synthesis では以下の **固定 5 軸 (G-Eval 由来 4 軸 + bizlp Triage 整合性 1 軸)** + **案件固有軸 (0–3 個)** で評価する。

### 2.1 固定軸 (Mandatory)
| 軸 | 出典 | 重要度ラベル |
|---|---|---|
| Coherence (出力の論理整合性) | G-Eval (Liu et al. 2023, arXiv:2303.16634) | High |
| Consistency (事実整合性、bizlp 既存 ADR との一貫性) | G-Eval + arc42 section 9 | Critical |
| Fluency (実装可能性、技術的妥当性) | G-Eval | Medium |
| Relevance (bizlp スコープ適合) | G-Eval | High |
| Triage 整合性 (ADR-0020 Light/Standard/Critical 区分) | bizlp ADR-0020 | Critical |

### 2.2 案件固有軸 (Optional, 0–3 個)
- {例: Cost Optimization (AWS Well-Architected 対応)}
- {例: Modifiability (ATAM 対応)}

## 3. Considered Options
### 3.1 Claude 出力
{要約 + 主要主張}
### 3.2 Gemini 出力
{要約 + 主要主張}
### 3.3 GPT 出力
{要約 + 主要主張}

## 4. Evaluation Matrix
| 軸 (重要度) | Claude (1–5) | Gemini (1–5) | GPT (1–5) | 備考 |
|---|---|---|---|---|
| Coherence (High) | 4 | 5 | 3 | |
| Consistency (Critical) | 5 | 4 | 4 | |
| Fluency (Medium) | 4 | 4 | 5 | |
| Relevance (High) | 5 | 5 | 4 | |
| Triage 整合性 (Critical) | 5 | 5 | 5 | |
| **加重和** (Critical=×2, High=×1.5, Medium=×1) | **31.0** | **31.5** | **28.0** | |

## 5. Decision Outcome
**Chosen option**: Gemini ベース + Claude の補強 (Consistency 軸が同点最高、加重和最高)
**Reasoning**: ...

## 6. Consequences
- Positive: ...
- Negative: ...
- Neutral: ...

## 7. Confirmation (Standard/Critical 必須)
- 実装確認方法: ...
- レビュー期日: ...

## 8. Caveats / 限界条件
- 評価軸は事前登録 (pre-registration) 済み。Confirmation bias 回避のため代替案生成前に軸を確定。
- 加重和は Equal weight 寄りの簡略版。Critical 案件では AHP-express の検証を別途実施。
- Multi-Agent Debate を実施した場合の disagreement 度合いを記録。

## 9. References
- ADR-0019 (LangGraph TS), ADR-0020 (Triage 基準)
- MADR 4.0.0: https://adr.github.io/madr/
- G-Eval: Liu et al. 2023, arXiv:2303.16634
- ATAM: CMU/SEI, https://www.sei.cmu.edu/library/the-architecture-tradeoff-analysis-method/

テンプレートの設計原則

固定軸 5 個 + 案件軸 0–3 個 で arc42 推奨の “max 5” + 補助軸数本に収める
5 段階スコア + 重要度ラベルで AHP の数学的厳密性を回避しつつ重み付けを実現
加重和集約 (WSM) を採用、Critical=×2 / High=×1.5 / Medium=×1
Critical 案件のみで AHP-express / Multi-Agent Debate を追加実施
Caveats セクションでアンチパターン (post-hoc rationalization, confirmation bias) への対策を明示

bizlp 採用推奨案 (400 字以内)

推奨フレームワーク (3 系統ハイブリッド): (1) MADR 4.0.0 をテンプレート構造の骨格に、(2) ATAM/arc42 の Quality Goals (top 3–5) を Decision Drivers の業界アンカーに、(3) G-Eval 4 軸 (Coherence/Consistency/Fluency/Relevance) を Multi-LLM Synthesis の固定評価軸に採用する。

標準テンプレート章構成: Context → Decision Drivers (固定 5 + 案件 0–3) → Considered Options (3 モデル並列) → Evaluation Matrix → Decision Outcome → Consequences → Confirmation → Caveats → References の 9 節構造。

評価軸の必須項目数: 固定 5 軸 (G-Eval 4 軸 + bizlp Triage 整合性) + 案件固有 0–3 軸 = 計 5–8 軸 (arc42 推奨範囲内)。

重み付け手法: Equal Weight + 重要度ラベル (Critical ×2 / High ×1.5 / Medium ×1) の加重和。AHP pairwise は Critical 案件で AHP-express のみ任意適用。

RQ-050/051 への遡及適用方針: Backward-compatible Addendum 形式で「業界対応表」を追記し、既存決定は維持。ADR-0019/0020 を否定しない範囲での拡張適用とする。RQ-053 以降は新標準テンプレートを強制適用。

Recommendations

即時 (RQ-053 から): 上記 9 節 Markdown テンプレートを bizlp Synthesis 標準として導入。Light 案件は Evaluation Matrix 省略可、Standard/Critical では必須。
1 週間以内: RQ-050/051 の Synthesis Addendum を作成、業界対応表を記録。
1 か月以内: LangGraph (ADR-0019 採用済) 上に Synthesis ノードを実装し、AutoGen 風 Critic agent (system prompt: “Double check plan, claims, code from other agents and provide feedback”) を Standard 以上で起動するパイプラインを構築。
検討トリガー: Synthesis 数が累計 100 件超 → Entropy method 等のデータ駆動重み付けへの移行を検討。3 モデル不一致率が 30% 超 → Multi-Agent Debate (Du et al. 2023, arXiv:2305.14325) を標準フローに組込み。

Caveats

bizlp は 1 人法人 + AI Agent 併用スケールであり、本提言は中〜大規模組織のベストプラクティスを 意図的に軽量化 している。学術的厳密性 (AHP/TOPSIS の数学的精度) と実装速度のトレードオフで後者を優先した結果である。
G-Eval 4 軸は元来 NLG 評価用 (SummEval ベンチマークで Spearman 相関 0.514) であり、 ADR Synthesis への流用は 筆者の判断による拡張適用。Coherence/Consistency/Fluency/Relevance の解釈を bizlp 文脈に合わせて再定義している点に注意。
タスクで言及された「Wang et al. ICLR 2024 / Ensemble Decision Making」に厳密一致する論文は特定できなかった。最も近い候補は (i) Wang et al. “Self-Consistency Improves Chain of Thought Reasoning in Language Models” ICLR 2023, arXiv:2203.11171 (sampling + majority vote)、または (ii) Li et al. “More Agents Is All You Need” TMLR 2024, arXiv:2402.05120 (sampling + cumulative similarity ranking)。ICLR 2024 採択の特定論文を意図していた場合は [要追加調査]。
GitLab Handbook の Engineering decisions プロセスについては、明示的な評価軸ドキュメントを発見できず詳細は [要追加調査]。一般論として「公開議論プロセス重視」と推定。
ThoughtWorks Tech Radar の Trial 入り基準 (“production usage” 必須) と Adopt 入り基準 (“not using them would be irresponsible”) は別物である点に注意。本報告書では Q4 表内で明示的に区別済み。
本テンプレートは 試行版 であり、RQ-053–055 程度で運用検証後に v2 へ更新することを推奨する。Synthesis 累計 100 件時点で重み付け方式の見直し (Entropy method 導入検討) をトリガーとする。