Deep Research プロンプティングのベストプラクティス — 3 モデル調査

調査日: 2026-05-27 調査者: [email protected] 目的: Deep Research API (OpenAI / Gemini / Claude) + 他 AI Research ツールのプロンプト最適化 調査モデル: Claude Opus 4.7 (Managed Agents) / OpenAI o3-deep-research / Gemini Deep Research (Web UI) 個別結果: Claude / OpenAI / Gemini

1. 3 モデル一致の Universal Best Practices

#	プラクティス	根拠
1	プロンプトは 80% 共通 + 20% ツール固有プロローグ	モデル間の「不一致」がシグナルになる。同一タスクで比較するには共通部分が必要
2	指示は 8-10 個以内	10 個超で個々の指示への注意力が低下 (instruction stacking 問題)
3	1 プロンプト = 1 リサーチ目的	複数目的を詰め込むと焦点がぼやける。「最も見落としやすく最も重要なステップ」
4	構造 > 長さ	reasoning モデルは few-shot よりも明確な制約とフォーマット指示に反応する
5	Background mode + polling が API の唯一信頼できるパターン	OpenAI `background=true`、Gemini `background=true` (必須)、Claude は `stream=true`
6	出力フォーマットは明示する	「表形式で」「TypeScript interface で」「decision matrix で」等。品質が劇的に向上
7	ペルソナ指定は技術タスクでは逆効果	フロンティアモデルでは persona stuffing が instruction-following を劣化させる (Perplexity は例外)
8	scope を制限しないと Gemini がタイムアウトする	代替案の数を制限する、セクション見出しを事前にコミットする等

2. ツール固有の最適化

OpenAI o3-deep-research

developer ロール + "data-rich / tables / source priorities / analytical" 指示で citation 品質向上
background=true + polling が必須 (同期呼出しはタイムアウト)
rate limit (TPM 200K) に注意。retry 機能を実装すべき
reasoning モデルなので few-shot は逆効果

Gemini Deep Research

scope 制限が最重要 — open-ended だと maximal planning で 20 分超タイムアウト
collaborative planning モードあり (collaborative_planning=true で plan を返す)
stale interaction がキューをブロックする既知バグ → POST /interactions/{id}/cancel で掃除
最も詳細な出力 (17-49KB) を返す傾向

Claude Managed Agents

デフォルトで簡潔。明示的に「網羅的に調査せよ」「10 件以上のソースを引用」と指示する
max_uses を上げて web_search ツールの使用回数を増やす
Agent → Environment → Session → SendEvents の 4 ステップ API
最速 (30 秒〜5 分)

Perplexity Pro Search / Deep Research

短い focused query が最適 (長いプロンプトは retrieval を混乱させる)
ペルソナ指定が唯一有効なツール
リアルタイム Web データに強い
API よりも UI の方が安定

Grok DeepSearch

X (Twitter) のリアルタイムデータが強み
最新トレンド・市場動向の調査に適する
API は限定的

その他のツール

Elicit: 学術論文検索に特化
Consensus: 学術的コンセンサスの要約
Exa: プログラマティック Web 検索 API

3. Anti-pattern チェックリスト

#	Anti-pattern	影響
1	1 プロンプトに複数の研究目的を詰め込む	焦点散漫、深さ不足
2	指示を 10 個以上列挙	後半の指示が無視される
3	技術タスクにペルソナを付与	instruction-following 劣化
4	few-shot example を reasoning モデルに与える	パフォーマンス低下
5	scope 未制限で Gemini を呼ぶ	タイムアウト
6	同期呼出し (background=false) で API を叩く	接続切れ
7	出力フォーマット未指定	モデル依存のばらつき
8	leading question (「X は良いですよね？」)	確証バイアス増幅
9	コンテキスト過剰 (全システム設計を貼る)	本題が埋もれる
10	stale interaction を放置 (Gemini)	後続リクエストがブロック

4. アーキテクチャ決定研究向けテンプレート

# Research Question

[1 文で明確に]

## Context (300-500 words)

- What we're building (1 段落)
- Current architecture (箇条書き 5-7 項目)
- Specific decision point (1 文)

## Questions (3-5 個、各 2-3 文)

1. [最重要の問い]
2. [2 番目]
3. [3 番目]

## Output

- Executive summary (5 key findings)
- Per-question analysis
- Decision matrix: options × criteria
- References with URLs

ツール固有プロローグ (共通 body の前に追加):

OpenAI: Produce a data-rich report with markdown tables and inline citations.
Gemini: Limit analysis to the 3 most promising alternatives. Do not enumerate more than 5 sub-questions per topic.
Claude: Search at least 10 distinct sources. Provide comprehensive analysis, not a summary.

5. 推奨ツールポートフォリオ

Tier	ツール	用途
Always-run (3 並列)	OpenAI + Gemini + Claude	アーキテクチャ決定の多角的調査
On-demand	Perplexity	リアルタイム情報、最新トレンド
Niche	Elicit	学術論文の systematic review
Niche	Grok	X/Twitter のセンチメント、速報

6. コスト

モデル	実行時間	コスト
Claude (Managed Agents)	397s	~$1.36
Gemini (Deep Research, Web UI)	—	—
OpenAI (o3-deep-research, attempt 3)	793s	$2.06