BIG5 × 意思決定バイアスの実証的マッピングと Constitution YAML パーソナライズ設計 — 3 モデル Deep Research 調査
調査日: 2026-05-27 調査者: [email protected] 目的: ADR-0071 の Constitution YAML をパーソナライズする根拠として、BIG5 性格特性と認知バイアスの実証的関連を調査 調査モデル: Claude Opus 4.7 (Managed Agents) / Gemini Deep Research (deep-research-preview-04-2026) / OpenAI o3-deep-research 個別結果: Claude / Gemini / OpenAI 関連 RQ: RQ-059 (盲点検出型再設計), RQ-062 (品質改善データ戦略)
0. 調査の動機
ADR-0071 の盲点検出エンジン (Devil's Advocate + Pre-mortem + Judge) は Constitution YAML から 3 観点をランダム選択する設計。起案者の性格特性に応じて脆弱なバイアスが異なるため、Constitution の観点をパーソナライズすることで盲点検出の精度向上が見込める。その根拠となる BIG5 → バイアスのマッピングと実装設計を調査した。
1. 調査設問
- BIG5 各次元と認知バイアスの実証的相関 (効果量付き、N > 100)
- LLM パイプラインでの性格特性ベースプロンプトの先行事例
- 執筆物からの BIG5 推定 (質問票なしの最軽量プロファイリング)
2. 調査結果
2.1 Claude Opus 4.7 (Managed Agents) — 366s, $1.60
主要発見: BIG5 → バイアスの文献は実在するが不均一。最も信頼性の高いマッピング:
- Extraversion → overconfidence (r ≈ .19, Schaefer 2004)
- Neuroticism → loss aversion / risk aversion (複数確認、N=750 含む)
- Agreeableness → conformity (Kosloff 2017)
重要な否定的知見: N=1000 の最大規模研究で anchoring bias × BIG5 に系統的関連なし (Bayes Factor が否定方向)。「全部パーソナライズ」は根拠不十分。
Confirmation bias は BIG5 との相関が弱い — 構造的対策 (Pre-mortem, DA, proposer ≠ reviewer) が本命。
LLM trait prompting: GPT-4o/Llama-3 で性格プロンプトが anchoring/decoy/framing を軽減する場合もあれば増幅する場合もあり、モデル・バイアス依存。
軽量プロファイリング: TIPI/BFI-10 (10 項目、1 分) が r ≈ .63-.67 vs NEO-PI-R。テキスト推定は r ≈ .31-.41 で半分の精度かつ GDPR リスクあり。
推奨: opt-in BFI-10 + 普遍的 Pre-mortem/Asch-dissenter。A/B テストで >10% lift を確認してから本格導入。
2.2 Gemini Deep Research — 531s, $1.12
主要発見: BIG5 × バイアスの実証的マッピングを詳細な効果量付きで提示:
- Sunk Cost Fallacy: Agreeableness r=0.51, Conscientiousness r=0.36
- Overconfidence: Extraversion r=0.32, Neuroticism r=-0.38
- Availability Heuristic: Neuroticism r=0.265, Openness r=0.253
LLM operationalization: Strategic Courtroom Framework (7,000+ 試行) で trait-conditioned 異質チームが trait-agnostic を一貫して上回る。PSG-Agent で BIG5 プロファイルに基づく安全ガードレールの有効性を確認。
Constitution YAML 設計: 起案者の trait extreme を補償する (ミラーではなく) 観点選択。High-Openness/Low-Conscientiousness には「Pragmatic Maintainability Enforcer」を配置。
軽量プロファイリング: RoBERTa + RNN で Openness の予測精度が最も高い。テキスト推定は NEO-PI-R に近づくが GDPR Article 9 への配慮が必要。
2.3 OpenAI o3-deep-research — 670s, $1.72
主要発見: Morningstar の大規模投資家調査データを重視:
- Extraversion → overconfidence 80%、Loss Aversion、Status Quo Bias
- Agreeableness → recency bias、availability bias
- Conscientiousness → overconfidence 70%、confirmation bias
- Openness → overconfidence 65%、status quo bias
- Neuroticism → loss aversion、risk-averse decisions
LLM operationalization: 「role-based prompting」と BIG5 条件付き prompting の類似性を指摘。multi-perspective adversarial prompting の有効性を支持するが、直接の head-to-head 比較研究は存在しない。
Constitution YAML 設計: "Pragmatic Skeptic" viewpoint の具体例を提示。when_traits + guidelines 構造。
軽量プロファイリング: テキストから r=0.25-0.40。IBM Personality Insights (retired) や open-vocabulary model が先行事例。数千語以上のテキストが必要。
3. サマリー (3-vendor 統合結論)
3.1 3 者一致点
| テーマ | 3 者合意 |
|---|---|
| BIG5 → バイアスの実証的根拠 | 存在するが効果量は中程度 (r ≈ 0.2-0.5)。全バイアスが BIG5 で説明されるわけではない |
| Extraversion → overconfidence | 最も再現性の高いマッピング |
| Anchoring bias × BIG5 | 関連なし (大規模研究で否定) |
| Constitution の設計方針 | 起案者の trait を補償する方向の観点を選択 (ミラーではなく反対) |
| テキストベース BIG5 推定 | r ≈ 0.25-0.40 で実用には不十分。opt-in 短縮版質問票が推奨 |
| プライバシー | テキストからの性格推定は GDPR/個人情報保護の観点で高リスク。opt-in 必須 |
3.2 不一致・温度差
| テーマ | Claude | Gemini | OpenAI |
|---|---|---|---|
| trait-conditioned prompting の有効性 | 懐疑的 (増幅リスクあり) | 楽観的 (先行事例あり) | 中立 (理論的に有望だが実証なし) |
| テキストベース推定の実用性 | 不十分 (r ≈ .31-.41) | 実用可能 (RoBERTa+RNN) | 不十分 (r ≈ .25-.40) |
| 導入優先度 | Nice-to-have (A/B テスト前提) | Should-have (効果量が十分) | Should-have (ただし実証待ち) |
3.3 bizlp 向け結論
- Phase 1 (即実装可): Constitution YAML に BIG5 ベースの観点を追加。ただしパーソナライズはせず、普遍的な補償観点セットとして全起案者に適用 (例: 過信チェック、sunk cost チェック、availability チェック)
- Phase 2 (opt-in 導入): BFI-10 (10 項目短縮版) をユーザープロファイルに追加。回答者のみ Constitution の観点を性格ベースで重み付け
- Phase 3 (検証後): A/B テストで blind-spot detection rate の >10% lift を確認してからテキストベース推定に移行検討
- テキストベース推定は当面見送り: 精度不十分 (r ≈ 0.3) + GDPR リスク。1 人法人では opt-in BFI-10 で十分
4. コスト
| モデル | 実行時間 | トークン | コスト |
|---|---|---|---|
| Claude (Managed Agents) | 366s | input 13 / output 21,236 | $1.60 |
| Gemini (Deep Research) | 531s | (非公開) | $1.12 |
| OpenAI (o3-deep-research) | 670s | input 20,811 / output 37,915 | $1.72 |
| 合計 | $4.44 |