調査日: 2026-05-27
調査者: [email protected]
目的: Deep Research API (OpenAI / Gemini / Claude) + 他 AI Research ツールのプロンプト最適化
調査モデル: Claude Opus 4.7 (Managed Agents) / OpenAI o3-deep-research / Gemini Deep Research (Web UI)
個別結果: Claude / OpenAI / Gemini
1. 3 モデル一致の Universal Best Practices
| # | プラクティス | 根拠 |
|---|
| 1 | プロンプトは 80% 共通 + 20% ツール固有プロローグ | モデル間の「不一致」がシグナルになる。同一タスクで比較するには共通部分が必要 |
| 2 | 指示は 8-10 個以内 | 10 個超で個々の指示への注意力が低下 (instruction stacking 問題) |
| 3 | 1 プロンプト = 1 リサーチ目的 | 複数目的を詰め込むと焦点がぼやける。「最も見落としやすく最も重要なステップ」 |
| 4 | 構造 > 長さ | reasoning モデルは few-shot よりも明確な制約とフォーマット指示に反応する |
| 5 | Background mode + polling が API の唯一信頼できるパターン | OpenAI background=true、Gemini background=true (必須)、Claude は stream=true |
| 6 | 出力フォーマットは明示する | 「表形式で」「TypeScript interface で」「decision matrix で」等。品質が劇的に向上 |
| 7 | ペルソナ指定は技術タスクでは逆効果 | フロンティアモデルでは persona stuffing が instruction-following を劣化させる (Perplexity は例外) |
| 8 | scope を制限しないと Gemini がタイムアウトする | 代替案の数を制限する、セクション見出しを事前にコミットする等 |
2. ツール固有の最適化
OpenAI o3-deep-research
- developer ロール + "data-rich / tables / source priorities / analytical" 指示で citation 品質向上
background=true + polling が必須 (同期呼出しはタイムアウト)
- rate limit (TPM 200K) に注意。retry 機能を実装すべき
- reasoning モデルなので few-shot は逆効果
Gemini Deep Research
- scope 制限が最重要 — open-ended だと maximal planning で 20 分超タイムアウト
- collaborative planning モードあり (
collaborative_planning=true で plan を返す)
- stale interaction がキューをブロックする既知バグ →
POST /interactions/{id}/cancel で掃除
- 最も詳細な出力 (17-49KB) を返す傾向
Claude Managed Agents
- デフォルトで簡潔。明示的に「網羅的に調査せよ」「10 件以上のソースを引用」と指示する
max_uses を上げて web_search ツールの使用回数を増やす
- Agent → Environment → Session → SendEvents の 4 ステップ API
- 最速 (30 秒〜5 分)
Perplexity Pro Search / Deep Research
- 短い focused query が最適 (長いプロンプトは retrieval を混乱させる)
- ペルソナ指定が唯一有効なツール
- リアルタイム Web データに強い
- API よりも UI の方が安定
Grok DeepSearch
- X (Twitter) のリアルタイムデータが強み
- 最新トレンド・市場動向の調査に適する
- API は限定的
その他のツール
- Elicit: 学術論文検索に特化
- Consensus: 学術的コンセンサスの要約
- Exa: プログラマティック Web 検索 API
3. Anti-pattern チェックリスト
| # | Anti-pattern | 影響 |
|---|
| 1 | 1 プロンプトに複数の研究目的を詰め込む | 焦点散漫、深さ不足 |
| 2 | 指示を 10 個以上列挙 | 後半の指示が無視される |
| 3 | 技術タスクにペルソナを付与 | instruction-following 劣化 |
| 4 | few-shot example を reasoning モデルに与える | パフォーマンス低下 |
| 5 | scope 未制限で Gemini を呼ぶ | タイムアウト |
| 6 | 同期呼出し (background=false) で API を叩く | 接続切れ |
| 7 | 出力フォーマット未指定 | モデル依存のばらつき |
| 8 | leading question (「X は良いですよね?」) | 確証バイアス増幅 |
| 9 | コンテキスト過剰 (全システム設計を貼る) | 本題が埋もれる |
| 10 | stale interaction を放置 (Gemini) | 後続リクエストがブロック |
4. アーキテクチャ決定研究向けテンプレート
# Research Question
[1 文で明確に]
## Context (300-500 words)
- What we're building (1 段落)
- Current architecture (箇条書き 5-7 項目)
- Specific decision point (1 文)
## Questions (3-5 個、各 2-3 文)
1. [最重要の問い]
2. [2 番目]
3. [3 番目]
## Output
- Executive summary (5 key findings)
- Per-question analysis
- Decision matrix: options × criteria
- References with URLs
ツール固有プロローグ (共通 body の前に追加):
- OpenAI:
Produce a data-rich report with markdown tables and inline citations.
- Gemini:
Limit analysis to the 3 most promising alternatives. Do not enumerate more than 5 sub-questions per topic.
- Claude:
Search at least 10 distinct sources. Provide comprehensive analysis, not a summary.
5. 推奨ツールポートフォリオ
| Tier | ツール | 用途 |
|---|
| Always-run (3 並列) | OpenAI + Gemini + Claude | アーキテクチャ決定の多角的調査 |
| On-demand | Perplexity | リアルタイム情報、最新トレンド |
| Niche | Elicit | 学術論文の systematic review |
| Niche | Grok | X/Twitter のセンチメント、速報 |
6. コスト
| モデル | 実行時間 | コスト |
|---|
| Claude (Managed Agents) | 397s | ~$1.36 |
| Gemini (Deep Research, Web UI) | — | — |
| OpenAI (o3-deep-research, attempt 3) | 793s | $2.06 |