BIG5 × 意思決定バイアスの実証的マッピングと Constitution YAML パーソナライズ設計 — 3 モデル Deep Research 調査

調査日: 2026-05-27 調査者: [email protected] 目的: ADR-0071 の Constitution YAML をパーソナライズする根拠として、BIG5 性格特性と認知バイアスの実証的関連を調査 調査モデル: Claude Opus 4.7 (Managed Agents) / Gemini Deep Research (deep-research-preview-04-2026) / OpenAI o3-deep-research 個別結果: Claude / Gemini / OpenAI 関連 RQ: RQ-059 (盲点検出型再設計), RQ-062 (品質改善データ戦略)

0. 調査の動機

ADR-0071 の盲点検出エンジン (Devil's Advocate + Pre-mortem + Judge) は Constitution YAML から 3 観点をランダム選択する設計。起案者の性格特性に応じて脆弱なバイアスが異なるため、Constitution の観点をパーソナライズすることで盲点検出の精度向上が見込める。その根拠となる BIG5 → バイアスのマッピングと実装設計を調査した。

1. 調査設問

BIG5 各次元と認知バイアスの実証的相関 (効果量付き、N > 100)
LLM パイプラインでの性格特性ベースプロンプトの先行事例
執筆物からの BIG5 推定 (質問票なしの最軽量プロファイリング)

2. 調査結果

2.1 Claude Opus 4.7 (Managed Agents) — 366s, $1.60

主要発見: BIG5 → バイアスの文献は実在するが不均一。最も信頼性の高いマッピング:

Extraversion → overconfidence (r ≈ .19, Schaefer 2004)
Neuroticism → loss aversion / risk aversion (複数確認、N=750 含む)
Agreeableness → conformity (Kosloff 2017)

重要な否定的知見: N=1000 の最大規模研究で anchoring bias × BIG5 に系統的関連なし (Bayes Factor が否定方向)。「全部パーソナライズ」は根拠不十分。

Confirmation bias は BIG5 との相関が弱い — 構造的対策 (Pre-mortem, DA, proposer ≠ reviewer) が本命。

LLM trait prompting: GPT-4o/Llama-3 で性格プロンプトが anchoring/decoy/framing を軽減する場合もあれば増幅する場合もあり、モデル・バイアス依存。

軽量プロファイリング: TIPI/BFI-10 (10 項目、1 分) が r ≈ .63-.67 vs NEO-PI-R。テキスト推定は r ≈ .31-.41 で半分の精度かつ GDPR リスクあり。

推奨: opt-in BFI-10 + 普遍的 Pre-mortem/Asch-dissenter。A/B テストで >10% lift を確認してから本格導入。

2.2 Gemini Deep Research — 531s, $1.12

主要発見: BIG5 × バイアスの実証的マッピングを詳細な効果量付きで提示:

Sunk Cost Fallacy: Agreeableness r=0.51, Conscientiousness r=0.36
Overconfidence: Extraversion r=0.32, Neuroticism r=-0.38
Availability Heuristic: Neuroticism r=0.265, Openness r=0.253

LLM operationalization: Strategic Courtroom Framework (7,000+ 試行) で trait-conditioned 異質チームが trait-agnostic を一貫して上回る。PSG-Agent で BIG5 プロファイルに基づく安全ガードレールの有効性を確認。

Constitution YAML 設計: 起案者の trait extreme を補償する (ミラーではなく) 観点選択。High-Openness/Low-Conscientiousness には「Pragmatic Maintainability Enforcer」を配置。

軽量プロファイリング: RoBERTa + RNN で Openness の予測精度が最も高い。テキスト推定は NEO-PI-R に近づくが GDPR Article 9 への配慮が必要。

2.3 OpenAI o3-deep-research — 670s, $1.72

主要発見: Morningstar の大規模投資家調査データを重視:

Extraversion → overconfidence 80%、Loss Aversion、Status Quo Bias
Agreeableness → recency bias、availability bias
Conscientiousness → overconfidence 70%、confirmation bias
Openness → overconfidence 65%、status quo bias
Neuroticism → loss aversion、risk-averse decisions

LLM operationalization: 「role-based prompting」と BIG5 条件付き prompting の類似性を指摘。multi-perspective adversarial prompting の有効性を支持するが、直接の head-to-head 比較研究は存在しない。

Constitution YAML 設計: "Pragmatic Skeptic" viewpoint の具体例を提示。when_traits + guidelines 構造。

軽量プロファイリング: テキストから r=0.25-0.40。IBM Personality Insights (retired) や open-vocabulary model が先行事例。数千語以上のテキストが必要。

3. サマリー (3-vendor 統合結論)

3.1 3 者一致点

テーマ	3 者合意
BIG5 → バイアスの実証的根拠	存在するが効果量は中程度 (r ≈ 0.2-0.5)。全バイアスが BIG5 で説明されるわけではない
Extraversion → overconfidence	最も再現性の高いマッピング
Anchoring bias × BIG5	関連なし (大規模研究で否定)
Constitution の設計方針	起案者の trait を補償する方向の観点を選択 (ミラーではなく反対)
テキストベース BIG5 推定	r ≈ 0.25-0.40 で実用には不十分。opt-in 短縮版質問票が推奨
プライバシー	テキストからの性格推定は GDPR/個人情報保護の観点で高リスク。opt-in 必須

3.2 不一致・温度差

テーマ	Claude	Gemini	OpenAI
trait-conditioned prompting の有効性	懐疑的 (増幅リスクあり)	楽観的 (先行事例あり)	中立 (理論的に有望だが実証なし)
テキストベース推定の実用性	不十分 (r ≈ .31-.41)	実用可能 (RoBERTa+RNN)	不十分 (r ≈ .25-.40)
導入優先度	Nice-to-have (A/B テスト前提)	Should-have (効果量が十分)	Should-have (ただし実証待ち)

3.3 bizlp 向け結論

Phase 1 (即実装可): Constitution YAML に BIG5 ベースの観点を追加。ただしパーソナライズはせず、普遍的な補償観点セットとして全起案者に適用 (例: 過信チェック、sunk cost チェック、availability チェック)
Phase 2 (opt-in 導入): BFI-10 (10 項目短縮版) をユーザープロファイルに追加。回答者のみ Constitution の観点を性格ベースで重み付け
Phase 3 (検証後): A/B テストで blind-spot detection rate の >10% lift を確認してからテキストベース推定に移行検討
テキストベース推定は当面見送り: 精度不十分 (r ≈ 0.3) + GDPR リスク。1 人法人では opt-in BFI-10 で十分

4. コスト

モデル	実行時間	トークン	コスト
Claude (Managed Agents)	366s	input 13 / output 21,236	$1.60
Gemini (Deep Research)	531s	(非公開)	$1.12
OpenAI (o3-deep-research)	670s	input 20,811 / output 37,915	$1.72
合計			$4.44