本ファイルは Gemini Deep Research の生出力を保存したものである。統合分析は RQ-054_knowledge_capture_pipeline_synthesis.md を参照。

1. エグゼクティブサマリ

本レポートは、エンタープライズ環境における非構造化データの収集・加工・蓄積を担い、LLMおよびRAGからの高度な再利用を可能にする「Knowledge Capture Pipeline」の設計論を体系化するものである。初期の直線的なNaive RAGから、動的ルーティングを伴うModular RAG、自律的な推論を行うAgentic RAG、そして全体構造を俯瞰するGraphRAGに至るまでの構造的差異を詳細に解き明かす。さらに、Late ChunkingやContextual Retrieval、ColChunkなどの2025〜2026年における最新の設計潮流を網羅し、実運用に耐えうる柔軟なデータ基盤アーキテクチャ選定のための技術的指針を提供する。

2. Knowledge Capture Pipeline とは

組織内に散在する非構造化データおよび半構造化データを収集し、意味的コンテキストを保持したまま加工・蓄積し、検索システムやLLMから即時かつ正確に再利用可能にするための統合的なデータ処理基盤。単なる一度きりのデータ変換スクリプトではなく、継続的なデータ同期、厳密なアクセス制御、および増分更新を備えたエンタープライズ規模の運用基盤として定義される。

ETLは構造化データ向け固定スキーマ、データレイクは生データ長期保管が主目的。Knowledge Capture Pipelineはデータを高次元ベクトルやナレッジグラフといった検索可能な専用フォーマットへと能動的かつ連続的に変換する点が本質的に異なる。

3. パイプラインの標準的な段階分解

5段階に分解:Ingestion / Extraction / Transformation / Storage / Retrieval。

  • Ingestion: CDC、ポーリング、Webhook。複雑性はAPIレートリミット、スキーマドリフト、増分検知。
  • Extraction: OCR、Layout-Aware Parsing(マルチカラム対応にBounding Boxクラスタリング)。
  • Transformation: 意味的チャンキング、メタデータ付与、重複排除、ベクトル化。Global Context喪失が最大課題。
  • Storage: ベクトルDB、グラフDB、ドキュメントストア並行保存。Upsert、Tombstone処理が運用課題。
  • Retrieval: ハイブリッド検索、Reranking、アクセス制御(Pre-Filter)。

4. アーキテクチャパターン

4.1 Naive RAG

固定長チャンク+単一埋め込みモデル+top-K。小規模静的コーパス・PoC向け。失敗パターン:Lost Context Problem。

4.2 Advanced RAG

BM25+Vector+Reranker構成。Anthropic Contextual Retrievalでは検索失敗率67%削減。失敗パターン:Rerankerタイムアウト、コスト増大。

4.3 Modular RAG

Query Routerがクエリ意図を解釈し最適検索インデックスへ動的振分。10M+ドキュメント環境向け。失敗パターン:オブザーバビリティ確保困難。

4.4 Agentic RAG

メタエージェント+ワーカーエージェント構成、ReActパラダイム。複数ソース横断推論向け。失敗パターン:無限ループ、APIコスト暴騰。

4.5 GraphRAG

LLMでエンティティ/関係性抽出→Leidenアルゴリズムでコミュニティ検出→要約レポート生成。Global Sensemaking向け。失敗パターン:初期構築のトークンコスト指数関数的増大。

4.6 ストリーム/インクリメンタル更新型

doc_id+ハッシュ管理で差分Upsert。失敗パターン:ゴーストチャンク蓄積。埋め込みモデル変更時は全再インデックス必要。

5. 横断的な設計論点

5.1 チャンキング戦略

  • Late Chunking (Jina AI): 全文をTransformerに入力→トークンベクトル→Mean Pooling。高速・低コスト。
  • Contextual Retrieval (Anthropic): LLMで文脈要約生成・付与。高精度だがLLMコスト(Prompt Cachingで$1.02/Mトークン)。

5.2 索引戦略

Contextual BM25(文脈要約付与チャンクでBM25構築)によりキーワード検索精度も向上。

5.3 権限境界

SpiceDB等ReBAC (Relationship-Based Access Control) によるPre-Filter方式がベストプラクティス。OWASP Excessive Agency/Sensitive Information Disclosureリスク対策。

5.4 重複排除とトレーサビリティ

doc_id+ハッシュ管理、バージョン違い文書のノイズ排除。

6. 2025〜2026年の潮流

  • Late Chunking / Contextual Retrieval の定着
  • Agentic RAG × GraphRAG 融合(コミュニティ要約をワーカーエージェントが利用)
  • ColChunk (Visual Late Chunking):HAC+空間位置情報でストレージ90%削減、nDCG向上

7. ケース別推奨パターン早見表

ケース推奨パターン必須設計要素
小規模固定Naive RAG最低限インデックス
大規模頻繁更新Modular + IncrementalCDC、Upsert、MinHash
関係性・全体理解GraphRAGコミュニティ検出+要約
複雑推論・比較Agentic RAGメタ/ワーカー階層化
マルチモーダルMultimodal RAGLayout-Aware Parsing
監査・権限厳格Advanced + ReBACPre-Filter、トレーサビリティ
検索精度極大化Advanced + ContextualLate Chunking/Contextual + Reranking