調査日: 2026-05-27 調査者: [email protected] 目的: Deep Research API (OpenAI / Gemini / Claude) + 他 AI Research ツールのプロンプト最適化 調査モデル: Claude Opus 4.7 (Managed Agents) / OpenAI o3-deep-research / Gemini Deep Research (Web UI) 個別結果: Claude / OpenAI / Gemini

1. 3 モデル一致の Universal Best Practices

#プラクティス根拠
1プロンプトは 80% 共通 + 20% ツール固有プロローグモデル間の「不一致」がシグナルになる。同一タスクで比較するには共通部分が必要
2指示は 8-10 個以内10 個超で個々の指示への注意力が低下 (instruction stacking 問題)
31 プロンプト = 1 リサーチ目的複数目的を詰め込むと焦点がぼやける。「最も見落としやすく最も重要なステップ」
4構造 > 長さreasoning モデルは few-shot よりも明確な制約とフォーマット指示に反応する
5Background mode + polling が API の唯一信頼できるパターンOpenAI background=true、Gemini background=true (必須)、Claude は stream=true
6出力フォーマットは明示する「表形式で」「TypeScript interface で」「decision matrix で」等。品質が劇的に向上
7ペルソナ指定は技術タスクでは逆効果フロンティアモデルでは persona stuffing が instruction-following を劣化させる (Perplexity は例外)
8scope を制限しないと Gemini がタイムアウトする代替案の数を制限する、セクション見出しを事前にコミットする等

2. ツール固有の最適化

OpenAI o3-deep-research

  • developer ロール + "data-rich / tables / source priorities / analytical" 指示で citation 品質向上
  • background=true + polling が必須 (同期呼出しはタイムアウト)
  • rate limit (TPM 200K) に注意。retry 機能を実装すべき
  • reasoning モデルなので few-shot は逆効果

Gemini Deep Research

  • scope 制限が最重要 — open-ended だと maximal planning で 20 分超タイムアウト
  • collaborative planning モードあり (collaborative_planning=true で plan を返す)
  • stale interaction がキューをブロックする既知バグ → POST /interactions/{id}/cancel で掃除
  • 最も詳細な出力 (17-49KB) を返す傾向

Claude Managed Agents

  • デフォルトで簡潔。明示的に「網羅的に調査せよ」「10 件以上のソースを引用」と指示する
  • max_uses を上げて web_search ツールの使用回数を増やす
  • Agent → Environment → Session → SendEvents の 4 ステップ API
  • 最速 (30 秒〜5 分)

Perplexity Pro Search / Deep Research

  • 短い focused query が最適 (長いプロンプトは retrieval を混乱させる)
  • ペルソナ指定が唯一有効なツール
  • リアルタイム Web データに強い
  • API よりも UI の方が安定

Grok DeepSearch

  • X (Twitter) のリアルタイムデータが強み
  • 最新トレンド・市場動向の調査に適する
  • API は限定的

その他のツール

  • Elicit: 学術論文検索に特化
  • Consensus: 学術的コンセンサスの要約
  • Exa: プログラマティック Web 検索 API

3. Anti-pattern チェックリスト

#Anti-pattern影響
11 プロンプトに複数の研究目的を詰め込む焦点散漫、深さ不足
2指示を 10 個以上列挙後半の指示が無視される
3技術タスクにペルソナを付与instruction-following 劣化
4few-shot example を reasoning モデルに与えるパフォーマンス低下
5scope 未制限で Gemini を呼ぶタイムアウト
6同期呼出し (background=false) で API を叩く接続切れ
7出力フォーマット未指定モデル依存のばらつき
8leading question (「X は良いですよね?」)確証バイアス増幅
9コンテキスト過剰 (全システム設計を貼る)本題が埋もれる
10stale interaction を放置 (Gemini)後続リクエストがブロック

4. アーキテクチャ決定研究向けテンプレート

# Research Question

[1 文で明確に]

## Context (300-500 words)

- What we're building (1 段落)
- Current architecture (箇条書き 5-7 項目)
- Specific decision point (1 文)

## Questions (3-5 個、各 2-3 文)

1. [最重要の問い]
2. [2 番目]
3. [3 番目]

## Output

- Executive summary (5 key findings)
- Per-question analysis
- Decision matrix: options × criteria
- References with URLs

ツール固有プロローグ (共通 body の前に追加):

  • OpenAI: Produce a data-rich report with markdown tables and inline citations.
  • Gemini: Limit analysis to the 3 most promising alternatives. Do not enumerate more than 5 sub-questions per topic.
  • Claude: Search at least 10 distinct sources. Provide comprehensive analysis, not a summary.

5. 推奨ツールポートフォリオ

Tierツール用途
Always-run (3 並列)OpenAI + Gemini + Claudeアーキテクチャ決定の多角的調査
On-demandPerplexityリアルタイム情報、最新トレンド
NicheElicit学術論文の systematic review
NicheGrokX/Twitter のセンチメント、速報

6. コスト

モデル実行時間コスト
Claude (Managed Agents)397s~$1.36
Gemini (Deep Research, Web UI)
OpenAI (o3-deep-research, attempt 3)793s$2.06