bizlp Synthesis 評価軸選定: 業界 MCDA フレームワーク調査と標準テンプレート提言
TL;DR
- bizlp の Multi-LLM Synthesis では、ATAM/CBAM (SEI) + MADR Decision Drivers + LLM-as-a-Judge (G-Eval) の 3 系統をハイブリッド適用し、固定軸 5 個 + 案件軸 0–3 個・5 段階スコア・加重和集約・低信頼時 LLM Critic 検証という標準テンプレートを採用すべきである。
- AHP/TOPSIS/PROMETHEE の数学的厳密手法は 1 人法人スケールでは過剰であり、Equal Weight + 重要度ラベル (Critical / High / Medium) で十分。pairwise comparison は 4 軸超で組合せ爆発するため省略可。
- RQ-050 / RQ-051 の遡及検証は「軸の業界対応表」を後付けで作成し、決定そのものは維持 (Backward-compatible enrichment)。今後の RQ-053 以降は標準テンプレートを強制適用する。
Key Findings
- MCDA 系 (AHP/TOPSIS/PROMETHEE/ELECTRE/MAUT/WSM) は数学的厳密性が高いが、1 人法人の Synthesis では Weighted Sum Model (WSM) 程度に簡略化するのが現実的。
- ソフトウェアアーキテクチャ専用 (SAAM/ATAM/CBAM) は SEI Carnegie Mellon が標準化しており、特に ATAM の Utility Tree (品質属性ツリー) と CBAM の ROI 評価 が bizlp の Standard/Critical 区分にマッチする。
- ADR 系 (MADR 4.0.0 / Zimmermann SOAD / arc42) には「Decision Drivers」セクションが共通標準として存在し、これが評価軸の業界共通アンカーとなる。arc42 公式は明示的に「top three (max five) quality goals」を推奨 (docs.arc42.org/section-1/)。
- Multi-LLM 系 (G-Eval / LLM-as-a-Judge / Multi-Agent Debate / LLM-Blender / AutoGen) は 2023年3月〜2024年2月の 12 か月間に集中的に整備された (G-Eval arXiv:2303.16634 2023-03、Du et al. arXiv:2305.14325 2023-05、MT-Bench arXiv:2306.05685 2023-06、LLM-Blender arXiv:2306.02561 2023-06、AutoGen arXiv:2308.08155 2023-08、More Agents arXiv:2402.05120 2024-02)。G-Eval は SummEval ベンチマークで人間判定との Spearman 相関 0.514 を達成し、 coherence/consistency/fluency/relevance の 4 軸全てで既存ベースラインを上回った (Liu et al. 2023, arXiv:2303.16634)。
- 軽量フレームワーク (DACI/RACI/CBA/Wardley/Cynefin) はステークホルダー多数を前提とし、1 人法人では DACI/RACI は不要、Cynefin と Wardley は補助的に使用可能。
- 重み付けは Equal Weight + 重要度ラベルで十分。AHP pairwise は n≥5 で組合せ数が爆発 (n=5 で 10 比較、n=7 で 21 比較) し、bizlp スケールでは Analysis Paralysis を招く。
- アンチパターンとして post-hoc rationalization, confirmation bias, analysis paralysis が確認されており、bizlp PR #811/#814 close 経緯はまさにこの 3 つに該当する可能性が高い。
Q1. 多基準意思決定分析 (MCDA) の主要フレームワーク網羅
| フレームワーク | 提唱者・初公開年 | 適用領域 | 一次資料 | 想定組織規模 |
|---|---|---|---|---|
| AHP (Analytic Hierarchy Process) | Saaty, T.L. 1977/1980 | 一般 MCDM, 政策, リソース配分 | Saaty (1980) The Analytic Hierarchy Process, McGraw-Hill, New York | 中〜大規模 (専門家チーム前提) |
| TOPSIS | Hwang, C.L. & Yoon, K. 1981 | 代替案ランキング, ベンダー選定 | Hwang & Yoon (1981) Multiple Attribute Decision Making: Methods and Applications, Springer LNEMS 186 | 中〜大規模 |
| PROMETHEE I/II | Brans, J.P. 1982 | プロジェクト選定, アウトランキング | Brans (1982) “L’ingénierie de la décision; La méthode PROMETHEE”, Université Laval, Quebec | 中〜大規模 |
| ELECTRE I–V | Roy, B. 1965/1968 | 多基準アウトランキング | Roy (1968) “Classement et choix en présence de points de vue multiples”, RIRO 8, pp.57–75 | 中〜大規模 |
| WSM (Weighted Sum Model) | Fishburn 1967 (classical) | 軽量 MCDM | Fishburn (1967) “Additive Utilities with Incomplete Product Set”, Operations Research | 小〜中規模 |
| WPM (Weighted Product Model) | Bridgman 1922 / Miller & Starr 1969 | 単位非互換時の集約 | Triantaphyllou (2000) Multi-Criteria Decision Making Methods | 小〜中規模 |
| MAUT (Multi-Attribute Utility Theory) | Keeney & Raiffa 1976 | 効用理論ベース | Keeney & Raiffa (1976) Decisions with Multiple Objectives, Wiley | 大規模 (公共政策等) |
| SAAM | Kazman, Abowd, Webb 1994 | ソフトウェアアーキテクチャ評価 | Kazman et al. (1994) ICSE-16, pp.81–90, DOI 10.1109/ICSE.1994.296768 | 中〜大規模ソフトウェア |
| ATAM | Kazman, Klein, Clements 1998 | アーキテクチャトレードオフ分析 | CMU/SEI ATAM Collection, https://www.sei.cmu.edu/library/the-architecture-tradeoff-analysis-method/ | 中〜大規模 |
| CBAM | Kazman, Asundi, Klein 2002 | 経済性ベース設計判断 | CMU/SEI-2002-TR-035, https://resources.sei.cmu.edu/library/asset-view.cfm?assetid=5785 | 中〜大規模 |
| SOAD / ADMentor | Zimmermann, O. 2009/2015 | アーキテクチャ決定モデリング | Zimmermann (2009) IBM Research; WICSA 2015 https://ozimmer.ch/assets/admentor-wicsa2015ubmissionv11nc.pdf | 中規模以上 |
| MADR (Markdown ADR) | Kopp, Armbruster, Zimmermann 2018 (v1) / v4.0.0 2024-09-17 | ADR 標準テンプレート | https://adr.github.io/madr/ | 1 人〜大規模 |
| arc42 | Starke & Hruschka 2008〜 | アーキテクチャ文書化 | https://docs.arc42.org/ | 小〜大規模 |
| DACI | Atlassian | チーム意思決定 | https://www.atlassian.com/team-playbook/plays/daci | 中〜大規模 (複数ステークホルダー) |
| RACI | 古典的 (1950s〜) | 役割分担マトリクス | 各種出典 | 中〜大規模 |
| Choosing By Advantages (CBA) | Suhr, J. 1999 | リーン建設, 品質志向決定 | Suhr (1999) The Choosing By Advantages Decisionmaking System, HRD Press | 小〜大規模 |
| Wardley Mapping | Wardley, S. 2005〜 | 戦略マッピング, 市場進化 | https://learnwardleymapping.com/ (Creative Commons) | 小〜大規模 |
| Cynefin | Snowden, D. 1999 / Snowden & Boone 2007 | 状況分類 (Clear/Complicated/Complex/Chaotic/Disorder) | Snowden & Boone (2007) “A Leader’s Framework for Decision Making”, Harvard Business Review Nov 2007 | 小〜大規模 |
| LLM-as-a-Judge (MT-Bench) | Zheng et al. 2023 | LLM 出力評価 | arXiv:2306.05685 | 個人〜大規模 |
| G-Eval | Liu et al. 2023 (EMNLP) | LLM ベース NLG 評価 | arXiv:2303.16634, DOI 10.18653/v1/2023.emnlp-main.153 | 個人〜大規模 |
| Multi-Agent Debate | Du et al. 2023 / Liang et al. 2023 | LLM 推論強化 | arXiv:2305.14325 (Du); Liang et al. 2023 (CIAR) | 個人〜大規模 |
| LLM-Blender | Jiang, Ren, Lin 2023 (ACL) | LLM アンサンブル | arXiv:2306.02561, DOI 10.18653/v1/2023.acl-long.792 | 中規模以上 |
| More Agents Is All You Need | Li et al. 2024 | サンプリング+多数決アンサンブル | arXiv:2402.05120, TMLR 2024 (OpenReview bgzUSZ8aeg) | 個人〜大規模 |
| AutoGen GroupChat / Critic | Wu et al. 2023 (MS Research) | Multi-Agent 対話フレームワーク | arXiv:2308.08155 | 個人〜大規模 |
| LangGraph Supervisor/Network/Hierarchical | LangChain | Multi-Agent オーケストレーション | https://docs.langchain.com/oss/python/langchain/multi-agent | 個人〜大規模 |
Q2. 各フレームワークの評価軸選定アプローチ比較
| フレームワーク | 軸選定方法 | 重み付け | スコアリング粒度 | 集約手法 |
|---|---|---|---|---|
| AHP | 階層的に案件ごと | Pairwise comparison + eigenvector | 1–9 Saaty スケール | 加重和 (eigenvector weights) |
| TOPSIS | 案件ごと固定 | AHP/Entropy/直感の併用が多い | 数値ベクトル | 正/負理想解への Euclid 距離 |
| PROMETHEE | 案件ごと固定 | 任意の正規化 weights | preference function (6 種) | 純フロー (positive – negative) |
| ELECTRE | 案件ごと固定 | weights + concordance/discordance threshold | qualitative/quantitative | アウトランキング関係 |
| WSM | 固定 or 案件ごと | Equal weight or 直感 | 1–5 / 1–10 | 加重算術平均 |
| WPM | 固定 or 案件ごと | 同上 | 比率スケール | 加重幾何平均 |
| MAUT | 案件ごと | utility function 構築 | 0–1 効用値 | 加重和 |
| SAAM | シナリオベース (案件ごと) | 暗黙 (シナリオ重要度) | qualitative (direct/indirect impact) | シナリオ衝突度カウント |
| ATAM | Utility Tree (3–7 quality attributes) | Importance × Difficulty (各 H/M/L) | qualitative + scenario | risks / sensitivity / tradeoff point 識別 |
| CBAM | ATAM 拡張 + ROI | utility curve + 経済的影響 | benefit 0–100 + cost | ROI = benefit/cost ranking |
| MADR | Decision Drivers (案件ごと、optional) | 重要度ラベルが慣習 | pros/cons qualitative | 選択肢比較 (chosen option + reasons) |
| arc42 | top 3 (max 5) quality goals (固定) | 暗黙 (stakeholder priority) | scenario-based | trade-off の明示 |
| DACI | options considered の評価軸 (案件ごと) | weighted pros/cons | qualitative or weighted | Approver 単独決定 |
| CBA | 案件ごと (Factor → Criterion → Attribute → Advantage) | Importance of Advantage (IofA, 0–100) | numeric importance | IofA 合計 + cost 別比較 |
| Wardley | 軸固定 (Visibility × Evolution) | n/a (空間配置) | 進化段階 (Genesis/Custom/Product/Commodity) | マップ全体での戦略 |
| Cynefin | 軸固定 (Ordered/Unordered, Cause-effect knowability) | n/a | 領域分類 | Sense-Categorize / Sense-Analyze-Respond / Probe-Sense-Respond / Act-Sense-Respond |
| LLM-as-a-Judge | 評価対象タスクに依存 | Equal or rubric-driven | 1–5/1–10 or pairwise | average / win-rate |
| G-Eval | 固定 4 軸 (Coherence/Consistency/Fluency/Relevance) | Equal | 1–5 + probability weighted | 確率加重和 |
| Multi-Agent Debate | task-dependent | 通常 Equal (majority vote) | 各エージェントの最終回答 | majority vote / consensus |
| LLM-Blender | PairRanker による pairwise | 学習された pairwise score | pairwise win/lose | GenFuser による fusion |
| AutoGen GroupChat | 動的 (GroupChatManager が選択) | LLM-driven | 自由形式 | LLM Critic + GroupChat ループ |
| LangGraph Supervisor | LLM が次エージェント選択 | LLM-driven | n/a (route 判定) | Supervisor 最終 synthesis |
Q3. ソフトウェアアーキテクチャでの MCDA 適用事例
SAAM (Kazman 1994, ICSE-16)
- 評価軸の典型例: Modifiability, Portability, Reusability (シナリオを通じて評価)
- 軸数の典型: シナリオベースで 5–20 個 (軸そのものより衝突シナリオ数が重要)
- 重み付けの慣習: シナリオ優先度ベース (直接 / 間接の二段階)
- 一次資料: Kazman, Abowd, Webb (1994) DOI 10.1109/ICSE.1994.296768
ATAM (Kazman, Klein, Clements 1998, CMU/SEI)
- 評価軸の典型例: SEI 公式定義として「modifiability, security, performance, availability」 が中核。これに reliability, usability, testability を追加することが多い。
- 軸数の典型: Utility Tree のトップノードで 4–7 個
- 重み付けの慣習: 各シナリオに (Importance, Difficulty) を H/M/L で付与。重みではなく risks / sensitivity points / tradeoff points の識別を重視。
- 一次資料: CMU/SEI ATAM Collection, https://www.sei.cmu.edu/library/the-architecture-tradeoff-analysis-method/
CBAM (Kazman, Asundi, Klein 2002)
- 評価軸: ATAM の品質属性 + 経済性 (cost, benefit, schedule)
- 軸数: ATAM と同じ 4–7 軸 + cost/benefit/ROI
- 重み付け: utility curve (benefit を 0–100 で正規化) + cost を別系統で計測 → ROI ランキング
- 一次資料: CMU/SEI-2002-TR-035, https://resources.sei.cmu.edu/library/asset-view.cfm?assetid=5785
Zimmermann ADMentor / SOAD (2009/2015)
- 評価軸: Problem-Option-Outcome モデルで、Problem ごとに固有の Decision Drivers を持つ。
- 軸数: Problem ごとに 2–6 個
- 重み付け: 暗黙 (Problem の階層的優先度)
- 一次資料: Zimmermann (2015) “Architectural Decision Guidance across Projects”, WICSA, https://ozimmer.ch/assets/admentor-wicsa2015ubmissionv11nc.pdf
arc42 Quality Goals
- 評価軸: 「top three (max five) quality goals」が arc42 公式の推奨数
- 軸数: 3–5 個 (公式推奨)
- 公式 quote (docs.arc42.org/section-1/): “The top three (max five) quality goals for the architecture whose fulfillment is of highest importance to the major stakeholders. … Don’t confuse them with project goals.”
- Tip 1-16 quote: “Here, in section 1.2, you describe only a handful (top 3-5) of these requirements. Use brief explanations with scenarios.”
- 重み付け: 暗黙 (top-3 の順序)
MADR Decision Drivers (Kopp/Armbruster/Zimmermann 2018, v4.0.0 2024-09-17)
- 評価軸: Decision Drivers (optional) で「force, concern」を列挙
- 軸数: 通常 2–5 個
- 重み付け: ラベル方式が一般的 (Primary / Secondary)
- 一次資料: https://adr.github.io/madr/decisions/adr-template.html
Q4. ADR / Synthesis における評価軸選定の業界事例
| 業界実装 | 評価軸の出典・選定根拠 |
|---|---|
| Spotify Engineering | RFC → ADR 二段階。RFC で問題定義・代替案提示、ADR で「significant decision」を記録。明示的評価軸はチーム単位 (Creator Team 等)。出典: https://engineering.atspotify.com/2020/04/when-should-i-write-an-architecture-decision-record |
| GitLab Handbook | Engineering decisions は明示的な評価軸より「公開議論プロセス」を重視 (handbook.gitlab.com)。MR/Issue ベース。[要追加調査 — 公式 Handbook の具体的な評価軸ドキュメントは未確認] |
| ThoughtWorks Tech Radar | Hold / Assess / Trial / Adopt の 4 環。** Trial 入りには “production usage” が必須** (ThoughtWorks FAQ thoughtworks.com/radar/faq verbatim: “We can only put blips into the Trial ring when we have experience of using that blip for production software”)。** Adopt 入りの基準は別**: “we only include items when we think it would be a poor and potentially irresponsible choice not to use them given the appropriate project context”。 Mason’s Razor (build-your-own-technology-radar): “for any of the technologies in the adopt ring, I will make fun of you at the pub if you aren’t using them”。 |
| AWS Well-Architected | 6 pillars: Operational Excellence, Security, Reliability, Performance Efficiency, Cost Optimization, Sustainability。 AWS 公式が white paper として標準化、各 pillar に質問群あり。 |
| Google Cloud Architecture Framework | 5 pillars: Operational excellence, Security/Privacy/Compliance, Reliability, Cost optimization, Performance optimization. |
| Anthropic / OpenAI / Google の LLM 評価軸 | Anthropic は HHH (Helpful, Honest, Harmless) を公開。OpenAI は accuracy / safety / robustness / alignment 等。MT-Bench (Zheng et al. 2023, arXiv:2306.05685) は LMSYS blog (lmsys.org/blog/2023-06-22-leaderboard) verbatim で 8 カテゴリ × 各 10 マルチターン質問 = 計 160 問: “Writing, Roleplay, Extraction, Reasoning, Math, Coding, Knowledge I (STEM), and Knowledge II (humanities/social science).” |
評価軸の出典・選定根拠の共通点:
- ATAM/CBAM の品質属性 (modifiability/security/performance/availability) が SaaS 業界で広く流用されている
- AWS/GCP Pillar は クラウドアーキテクチャレビュー に特化した「業務分割型」軸
- ThoughtWorks Radar の “Trial 入りには production usage が必須” という基準は 証拠基準 の好例 (Adopt はさらにその上)
- LLM 評価では G-Eval の 4 軸 + MT-Bench 8 カテゴリが事実上の標準
Q5. 軽量フレームワークの適用領域比較
| FW | 適用領域・フェーズ | 軸数 (典型) | 1 人法人適用性 (1–5) | LLM Synthesis 親和性 |
|---|---|---|---|---|
| DACI | クロス組織意思決定。Driver/Approver/Contributors/Informed | n/a (役割 4 つ) | 1 (1 人法人では Driver=Approver=Contributor で機能しない) | 低 (ステークホルダー多数前提) |
| RACI | プロジェクト責任分担 | n/a (役割 4 つ) | 1 | 低 |
| Choosing By Advantages | 設計案の選定 (リーン建設発) | Factor: 3–10, Advantage 比較 | 4 (1 人でも論理的に適用可) | 中 (Advantage の言語化が LLM に親和的) |
| Wardley Mapping | 戦略マッピング, 進化分析 | 軸 2 つ (Visibility × Evolution) | 3 (Synthesis より戦略レイヤー向き) | 中 (LLM で map 生成支援可) |
| Cynefin | 状況分類 (どの方法論を使うべきか) | 領域 5 つ | 5 (1 人でも完全適用可) | 高 (Triage 区分との親和性大) |
結論: 1 人法人 + AI Agent スケールでは Cynefin (状況判定) + Choosing By Advantages (Synthesis 集約) が最も親和性が高い。DACI/RACI は不要。
Q6. 複数 LLM の出力突合 (Multi-Model Synthesis) に特化した評価軸選定
関連先行研究と評価軸選定パターン
| 研究 | 評価軸選定パターン | bizlp への適用可能性 |
|---|---|---|
| LLM-as-a-Judge / MT-Bench (Zheng et al. 2023, arXiv:2306.05685) | Single Output Scoring / Single Output with Reference / Pairwise Comparison の 3 形式。 MT-Bench は 8 カテゴリ × 10 質問 = 160 問 (Writing, Roleplay, Extraction, Reasoning, Math, Coding, STEM, humanities) | 3 モデル並列出力に Pairwise で適用可 |
| G-Eval (Liu et al. 2023, arXiv:2303.16634) | 固定 4 軸 Coherence, Consistency, Fluency, Relevance を 1–5 スケールで評価、確率加重和で集約。SummEval ベンチマークで人間との Spearman 相関 0.514 を達成し、全 4 軸でベースラインを上回る。 | bizlp の Synthesis 標準軸の最有力候補 |
| Multi-Agent Debate (Du et al. 2023, arXiv:2305.14325) | 同一モデルの複数インスタンスが相互批評。“Society of Minds”。 事実性 & 推論で改善。 | RQ-050/051 のような 3 モデル並列出力の合意形成に直接適用可 |
| Multi-Agent Debate (Liang et al. 2023) | tit-for-tat / 賛成・反対役割。moderate disagreement で最高性能。 CIAR データセット。 | 反論役割を明示的に持たせる設計が可能 |
| Self-Consistency (Wang et al. 2023, ICLR 2023, arXiv:2203.11171) | “Self-Consistency Improves Chain of Thought Reasoning in Language Models”。 複数の reasoning path をサンプリングし最終回答を majority vote で marginalize。 GSM8K +17.9%, SVAMP +11.0% 改善。 | Reasoning タスクで closed-ended 集約として有効 |
| LLM-Blender (Jiang et al. 2023, ACL, arXiv:2306.02561) | PairRanker (pairwise 順位付け) + GenFuser (上位 K の融合生成)。GPT-Rank がランキング教師信号。 | Synthesis 出力の品質向上に直接適用 |
| More Agents Is All You Need (Li et al. 2024, TMLR, arXiv:2402.05120) | サンプリング数 N を増やし、closed-ended は majority vote、open-ended は BLEU 累積類似度で順位付け。 | 3 モデル並列調査の集約手法として直接適用可 |
| AutoGen (Wu et al. 2023, arXiv:2308.08155) | GroupChatManager + Critic agent。Critic system prompt verbatim: “Critic. Double check plan, claims, code from other agents and provide feedback. Check whether the plan includes adding verifiable info such as source URL.” | LangGraph 上の Synthesis ノードに Critic 役を追加できる |
| LangGraph (LangChain) | Subagents / Handoffs / Skills / Router / Custom workflow (現行ドキュメント)。 レガシー命名は Network / Supervisor / Hierarchical。Supervisor 例: “You are a supervisor tasked with managing a conversation between the following workers… respond with the worker to act next … When finished, respond with FINISH.” | ADR-0019 ですでに採用済み — Supervisor pattern で Synthesis ノードを構築 |
bizlp の「3 モデル並列調査 → Synthesis」に適用可能な評価軸選定パターン (抽出)
- 固定 4 軸 (G-Eval 由来): Coherence / Consistency / Fluency / Relevance
- bizlp 特化 1 軸: ADR-0020 Triage 適合度 (Light/Standard/Critical に整合しているか)
- 集約手法: 上位 K (=2) を pairwise で比較し、Synthesis 後に Critic agent が再検証 (Du et al. 2023 + AutoGen Critic の組合せ)
- Fallback: 3 モデル間で不一致が大きい場合 (entropy 高)、Multi-Agent Debate を 1 ラウンド起動
Q7. 評価軸の重み付け手法とアンチパターン
主要手法の比較
| 手法 | メリット | デメリット | bizlp 適合性 |
|---|---|---|---|
| AHP pairwise comparison | 整合性指標 (CR) で論理矛盾検出可、理論的に厳密 | n=5 で 10 比較、n=7 で 21 比較が必要。1 人法人では時間コスト過大 (AHP-express で n-1 比較に簡略化可能 — Leal 2019, DOI 10.1016/j.mex.2019.11.021) | △ (Critical 案件のみ) |
| Equal weighting | 単純、bias 最小化、説明容易 | 軸の重要度差を反映できない | ◎ (Light/Standard 案件) |
| 重要度ラベル (Critical/High/Medium/Low) | Equal weight より柔軟、AHP より軽量 | 主観的 | ◎ (bizlp 推奨) |
| Entropy method (Shannon 1948 由来) | データ駆動、客観的 | 学習データが必要 | △ (将来検討) |
| DEA (Data Envelopment Analysis) | 効率フロンティアで客観評価 | 複雑、ハイブリッド AHP-DEA も提案あり | × (過剰) |
アンチパターン (bizlp PR #811/#814 に直接該当)
- Post-hoc rationalization (事後合理化): 既に採用したい案がある状態で、その案に有利な評価軸を後付けで作成する。RQ-051 の 7 節構造選定で疑われる。
- Confirmation bias: 採用案を支持する証拠だけを軸として採用。
- Analysis paralysis: 軸が多すぎて決定不能。Miller (1956) の 7±2 ルールに基づき AHP も 7 軸前後を上限とするのが通例。
- Spurious quantification: qualitative な比較を無理に数値化 (CBA の Suhr が批判する weighting-and-rating の典型問題)。
対策
- Pre-registration of criteria: 評価軸は 代替案リストを見る前に確定する (Bezos Type 1/2 区分に類似)
- Devil’s advocate: AutoGen Critic / Multi-Agent Debate の “negative role” を活用
- 5 軸上限: arc42 の “max 5 quality goals” を bizlp Synthesis にも適用
Q8. 1 人法人 + AI Agent スケールでの省略可能項目
bizlp MVP 必須項目リスト (8 項目)
- Context & Problem Statement (MADR 必須)
- Decision Drivers = 評価軸 (3–5 個、arc42 推奨)
- Considered Options (3 モデルの並列出力)
- Evaluation Matrix (option × criteria、5 段階スコア)
- Decision Outcome (chosen option + reasoning)
- Triage 整合性チェック (ADR-0020 Light/Standard/Critical)
- Consequences (positive / negative / neutral, MADR v4.0.0)
- Confirmation (検証方法、MADR v4.0.0 optional だが Standard/Critical では必須化)
省略可能項目リスト
| 項目 | 出典 FW | 省略理由 |
|---|---|---|
| Driver/Approver/Contributors/Informed の 4 役割明記 | DACI/RACI | 1 人法人で意味なし |
| AHP pairwise comparison matrix | AHP | 1 人で 21 比較は時間コスト過大 |
| TOPSIS / PROMETHEE の Euclid 距離計算 | TOPSIS/PROMETHEE | 数学的厳密性が過剰 |
| Utility curve (CBAM) | CBAM | ROI が事業判断レベルのみ必要 |
| Stakeholder workshop (ATAM Phase 1) | ATAM | 1 人法人で workshop 不要 |
| Quality Tree の詳細展開 | ATAM/arc42 | top-3 軸で十分 |
| Sensitivity / Tradeoff point の網羅的識別 | ATAM | Critical 案件のみで実施 |
| Wardley Map の作成 | Wardley | 戦略レイヤーであり Synthesis では省略可 |
| 8 カテゴリ MT-Bench 評価 | LLM-as-a-Judge | bizlp は 4 軸 G-Eval で十分 |
Q9. RQ-050 / RQ-051 Synthesis への遡及適用案
手順
- 業界対応表の作成: RQ-050/051 の独自評価軸を、Q1–Q3 のフレームワーク軸 (ATAM 品質属性、MADR Decision Drivers、G-Eval 4 軸) に 後付けでマッピング。
- マッピング不能軸の特定: 業界標準にない軸が見つかった場合、その軸の正当性を Critical 度合いで判定。
- 覆すか維持か: 既存決定は Backward-compatible enrichment とし、ADR 本体は維持。「Synthesis Addendum」で評価軸の業界対応表を追記する形を推奨。
RQ-050 (ADR Scope 4 階層: Corporate/Platform/Product/Ops) の再評価
- 既存独自評価軸 (推定): 階層粒度、組織責任分界、CodeOps 統合容易性、phased backfill 可能性
- 業界対応:
- 階層粒度 → arc42 section 9 (Architecture Decisions の粒度) と整合
- 組織責任分界 → AWS Well-Architected “Operational Excellence” pillar に対応
- CodeOps 統合 → ThoughtWorks Tech Radar “Trial 入りには production usage が必須” 基準と整合
- phased backfill → ATAM sensitivity point の概念に対応
- 判定: 4 軸とも業界標準に対応物あり → 既存決定維持、Addendum 追加
RQ-051 (Lint 規約 7 節構造 / 5 カテゴリ / 6 メタ項目) の再評価
- 既存独自評価軸 (推定): 構造の網羅性、カテゴリ分割の粒度、メタ項目の運用負荷
- 業界対応:
- 7 節構造 → MADR 4.0.0 の section 構造 (status, context, drivers, options, decision outcome, consequences, confirmation, more information の 8 セクション) と類似 — 1 節差は許容範囲
- 5 カテゴリ → AWS 6 pillars / arc42 quality goals top-5 と整合
- 6 メタ項目 → MADR YAML frontmatter (status, date, deciders, consulted, informed) と類似
- 判定: 業界標準と整合可能 → 既存決定維持、Addendum 追加。ただし「メタ項目 6 個」は arc42 推奨の “max 5” を 1 つ超えており、運用負荷を再評価する余地あり。
既存決定を覆す判断基準
- 業界標準に対応物が 複数フレームワークで皆無 の場合 → 独自軸の正当性を再検証 (Critical Reopen)
- ATAM sensitivity point / tradeoff point に対応する軸が欠落している場合 → 追加検討
- アンチパターン (post-hoc rationalization 等) が明確に該当する場合 → 軸を業界準拠で 置換
遡及適用方針
- RQ-050/051 は Backward-compatible enrichment (Addendum 形式) で維持。
- RQ-053 以降は新標準テンプレート (Q10) を強制適用。
- ADR-0019/0020 を否定する変更は行わない。
Q10. bizlp Synthesis 標準テンプレートの推奨
標準テンプレート構造 (Markdown 例)
---
id: RQ-053-synthesis
status: proposed # proposed | accepted | superseded
date: 2026-05-17
triage: Standard # Light | Standard | Critical (ADR-0020 準拠)
deciders: [代表取締役]
models_consulted: [Claude, Gemini, GPT]
---
# RQ-053 Synthesis: {決定タイトル}
## 1. Context & Problem Statement
{問題の背景、なぜ意思決定が必要か}
## 2. Decision Drivers (評価軸)
本 Synthesis では以下の **固定 5 軸 (G-Eval 由来 4 軸 + bizlp Triage 整合性 1 軸)** + **案件固有軸 (0–3 個)** で評価する。
### 2.1 固定軸 (Mandatory)
| 軸 | 出典 | 重要度ラベル |
|---|---|---|
| Coherence (出力の論理整合性) | G-Eval (Liu et al. 2023, arXiv:2303.16634) | High |
| Consistency (事実整合性、bizlp 既存 ADR との一貫性) | G-Eval + arc42 section 9 | Critical |
| Fluency (実装可能性、技術的妥当性) | G-Eval | Medium |
| Relevance (bizlp スコープ適合) | G-Eval | High |
| Triage 整合性 (ADR-0020 Light/Standard/Critical 区分) | bizlp ADR-0020 | Critical |
### 2.2 案件固有軸 (Optional, 0–3 個)
- {例: Cost Optimization (AWS Well-Architected 対応)}
- {例: Modifiability (ATAM 対応)}
## 3. Considered Options
### 3.1 Claude 出力
{要約 + 主要主張}
### 3.2 Gemini 出力
{要約 + 主要主張}
### 3.3 GPT 出力
{要約 + 主要主張}
## 4. Evaluation Matrix
| 軸 (重要度) | Claude (1–5) | Gemini (1–5) | GPT (1–5) | 備考 |
|---|---|---|---|---|
| Coherence (High) | 4 | 5 | 3 | |
| Consistency (Critical) | 5 | 4 | 4 | |
| Fluency (Medium) | 4 | 4 | 5 | |
| Relevance (High) | 5 | 5 | 4 | |
| Triage 整合性 (Critical) | 5 | 5 | 5 | |
| **加重和** (Critical=×2, High=×1.5, Medium=×1) | **31.0** | **31.5** | **28.0** | |
## 5. Decision Outcome
**Chosen option**: Gemini ベース + Claude の補強 (Consistency 軸が同点最高、加重和最高)
**Reasoning**: ...
## 6. Consequences
- Positive: ...
- Negative: ...
- Neutral: ...
## 7. Confirmation (Standard/Critical 必須)
- 実装確認方法: ...
- レビュー期日: ...
## 8. Caveats / 限界条件
- 評価軸は事前登録 (pre-registration) 済み。Confirmation bias 回避のため代替案生成前に軸を確定。
- 加重和は Equal weight 寄りの簡略版。Critical 案件では AHP-express の検証を別途実施。
- Multi-Agent Debate を実施した場合の disagreement 度合いを記録。
## 9. References
- ADR-0019 (LangGraph TS), ADR-0020 (Triage 基準)
- MADR 4.0.0: https://adr.github.io/madr/
- G-Eval: Liu et al. 2023, arXiv:2303.16634
- ATAM: CMU/SEI, https://www.sei.cmu.edu/library/the-architecture-tradeoff-analysis-method/
テンプレートの設計原則
- 固定軸 5 個 + 案件軸 0–3 個 で arc42 推奨の “max 5” + 補助軸数本に収める
- 5 段階スコア + 重要度ラベルで AHP の数学的厳密性を回避しつつ重み付けを実現
- 加重和集約 (WSM) を採用、Critical=×2 / High=×1.5 / Medium=×1
- Critical 案件のみで AHP-express / Multi-Agent Debate を追加実施
- Caveats セクションでアンチパターン (post-hoc rationalization, confirmation bias) への対策を明示
bizlp 採用推奨案 (400 字以内)
推奨フレームワーク (3 系統ハイブリッド): (1) MADR 4.0.0 をテンプレート構造の骨格に、(2) ATAM/arc42 の Quality Goals (top 3–5) を Decision Drivers の業界アンカーに、(3) G-Eval 4 軸 (Coherence/Consistency/Fluency/Relevance) を Multi-LLM Synthesis の固定評価軸に採用する。
標準テンプレート章構成: Context → Decision Drivers (固定 5 + 案件 0–3) → Considered Options (3 モデル並列) → Evaluation Matrix → Decision Outcome → Consequences → Confirmation → Caveats → References の 9 節構造。
評価軸の必須項目数: 固定 5 軸 (G-Eval 4 軸 + bizlp Triage 整合性) + 案件固有 0–3 軸 = 計 5–8 軸 (arc42 推奨範囲内)。
重み付け手法: Equal Weight + 重要度ラベル (Critical ×2 / High ×1.5 / Medium ×1) の加重和。AHP pairwise は Critical 案件で AHP-express のみ任意適用。
RQ-050/051 への遡及適用方針: Backward-compatible Addendum 形式で「業界対応表」を追記し、既存決定は維持。ADR-0019/0020 を否定しない範囲での拡張適用とする。RQ-053 以降は新標準テンプレートを強制適用。
Recommendations
- 即時 (RQ-053 から): 上記 9 節 Markdown テンプレートを bizlp Synthesis 標準として導入。Light 案件は Evaluation Matrix 省略可、Standard/Critical では必須。
- 1 週間以内: RQ-050/051 の Synthesis Addendum を作成、業界対応表を記録。
- 1 か月以内: LangGraph (ADR-0019 採用済) 上に Synthesis ノードを実装し、AutoGen 風 Critic agent (system prompt: “Double check plan, claims, code from other agents and provide feedback”) を Standard 以上で起動するパイプラインを構築。
- 検討トリガー: Synthesis 数が累計 100 件超 → Entropy method 等のデータ駆動重み付けへの移行を検討。3 モデル不一致率が 30% 超 → Multi-Agent Debate (Du et al. 2023, arXiv:2305.14325) を標準フローに組込み。
Caveats
- bizlp は 1 人法人 + AI Agent 併用スケールであり、本提言は中〜大規模組織のベストプラクティスを 意図的に軽量化 している。学術的厳密性 (AHP/TOPSIS の数学的精度) と実装速度のトレードオフで後者を優先した結果である。
- G-Eval 4 軸は元来 NLG 評価用 (SummEval ベンチマークで Spearman 相関 0.514) であり、 ADR Synthesis への流用は 筆者の判断による拡張適用。Coherence/Consistency/Fluency/Relevance の解釈を bizlp 文脈に合わせて再定義している点に注意。
- タスクで言及された「Wang et al. ICLR 2024 / Ensemble Decision Making」に厳密一致する論文は特定できなかった。最も近い候補は (i) Wang et al. “Self-Consistency Improves Chain of Thought Reasoning in Language Models” ICLR 2023, arXiv:2203.11171 (sampling + majority vote)、または (ii) Li et al. “More Agents Is All You Need” TMLR 2024, arXiv:2402.05120 (sampling + cumulative similarity ranking)。ICLR 2024 採択の特定論文を意図していた場合は [要追加調査]。
- GitLab Handbook の Engineering decisions プロセスについては、明示的な評価軸ドキュメントを発見できず詳細は [要追加調査]。一般論として「公開議論プロセス重視」と推定。
- ThoughtWorks Tech Radar の Trial 入り基準 (“production usage” 必須) と Adopt 入り基準 (“not using them would be irresponsible”) は別物である点に注意。本報告書では Q4 表内で明示的に区別済み。
- 本テンプレートは 試行版 であり、RQ-053–055 程度で運用検証後に v2 へ更新することを推奨する。Synthesis 累計 100 件時点で重み付け方式の見直し (Entropy method 導入検討) をトリガーとする。