本ファイルは Claude の RQ 形式調査結果を保存したものである。統合分析は RQ-054_knowledge_capture_pipeline_synthesis.md を参照。

メタ情報

  • 調査開始日:2026年5月
  • 調査者:代表取締役 (bizlp 代表)、Claude (壁打ち役)
  • 動機:bizlp 内で Knowledge Capture Pipeline 実装を検討中。実装着手前の意思決定地図を得るため
  • 確証度の表記凡例
    • ◎ 一次情報・複数論文で裏付け、再現性高
    • ◯ 公式ベンダ情報や論文1件で裏付け
    • △ ベンダブログや個別事例ベース、要追試
    • ✕ 出典未確認、要検証

主RQ

RQ0: Knowledge Capture Pipeline をbizlpに導入する場合、どのアーキテクチャパターンを採用すべきか?

現時点での回答(暫定):本調査は「一般論としての地図」を得ることに留めた。一般論として、コーパス規模・更新頻度・関係性・監査要件の4軸で6パターンが使い分けられる構造が明らかになった。bizlp適用判断は別途RQとして立ち上げる必要がある。

副RQ群

RQ1: Knowledge Capture Pipeline はETL/ELT/データレイク等の従来概念と何が違うのか?

回答要約:従来概念とは「最終消費先がLLMコンテキスト窓」という点で決定的に異なる。ETL/ELTはBI向け、データレイクは生データ保管が主目的。Knowledge Capture Pipelineは「意味境界・埋め込み・メタデータ抽出」を一級市民とし、能動的索引化を行う。

確証度:◎ Gao et al. 2024 (arXiv:2312.10997) で定義が明確

RQ2: パイプラインの標準段分解はどう描けるか?

回答要約:5段の責務分離が標準。Ingestion / Extraction / Transformation / Indexing-Storage / Retrieval。複雑度の集中点はそれぞれ、認証・ACL継承、PDF/Officeレイアウト崩れ、チャンク境界とID/version管理、upsert vs rebuild整合性、再現率と精度のトレードオフ。

確証度:◎ LlamaIndex公式、Supabase RAG with Permissions等で裏付け

RQ3: アーキテクチャパターンの概要

6パターン:Naive RAG / Advanced RAG / Modular RAG / Agentic RAG / GraphRAG / Stream-Incremental型。

RQ3.1 Naive RAG

固定長チャンク+単一dense retriever+top-k。代表的失敗:Anthropic SEC filing例でのチャンク境界文脈分断。 確証度:◎

RQ3.2 Advanced RAG

Anthropic Contextual Retrieval (2024年9月) の評価:

  • ベースライン: 5.7%
  • Contextual Embeddings単独: 3.7% (35%削減)
  • +Contextual BM25: 2.9% (49%削減)
  • +Reranking: 1.9% (67%削減)

失敗パターン:スコア正規化未実施、日本語BM25トークナイザ不適合。 確証度:◎ Anthropic公式ブログで具体数値

RQ3.3 Modular RAG

Gao et al. 2024 (arXiv:2407.21059) の6モジュール×3階層×4フローパターン。失敗パターン:組み合わせ爆発と再現性低下。 確証度:◎

RQ3.4 Agentic RAG

リスク:ループ無限化、ツール選択誤りによる課金事故、軌跡評価欠落。Anthropic "Building Effective Agents" 5 workflowパターン。 確証度:◎

RQ3.5 GraphRAG

Microsoft Research評価:vector RAGベースラインに対しcomprehensiveness 72-83%、diversity 75-82%の勝率 (p<0.01)。LazyGraphRAG (2024年11月) で事前要約コスト大幅削減。 確証度:◎ Edge et al. 2024 (arXiv:2404.16130)

RQ3.6 Stream/Incremental型

Zhu 2025 (arXiv:2508.05662): Recall@10で3ポイント改善 (p<0.01)、end-to-end latency <15ms。埋め込みモデル変更時のブルー・グリーン切替が要考慮。 確証度:△ 単一論文依存

RQ4: チャンク戦略

5アプローチ:固定長、意味境界、階層、Late Chunking (Günther et al. 2024)、Contextual Chunking (Anthropic 2024)。Late ChunkingとContextual Retrievalは補完関係。 確証度:◎

RQ5: 監査要件のある権限境界設計

SpiceDB等ReBAC Pre-Filter方式がベストプラクティス。実装例: Supabase pgvector + RLS、Milvus row-level RBAC。 確証度:◯

RQ6: トレーサビリティ最小要件

source_id, version, ingestion_ts, chunk_id 付与。Self-RAG reflection token。retrieval log保持。旧ベクタ論理削除。 確証度:◯

RQ7: 2025-2026年潮流は置き換えか拡張か

ほぼ全て「拡張」。Late ChunkingはTransformation段置換、Streaming RAGはバッチ前提置換。

RQ8: ケース別推奨(9ケース)

小規模静的 / 大規模高頻度 / 関係性支配 / マルチモーダル / 強監査 / リアルタイム / マルチホップ / 機密マルチテナント / 検索精度極大化

未解決RQ

  • RQ10: bizlp fit/misfit判定
  • RQ11: 日本語BM25トークナイザ選定
  • RQ12: 監査要件下Agentic RAG軌跡監査設計
  • RQ13: 埋め込みモデルBlue-Green切替
  • RQ14: GAS環境下権限フィルタ配置
  • RQ15: ColChunkストレージ削減率原典確認

Caveats

  • 2026年5月時点。特に2025-2026年論文は追試引用が限定的
  • Gemini版 arXiv:2602.22217 にハルシネーション疑い→除外
  • 日本語環境固有論点は範囲外