RQ-054 Claude Result: Knowledge Capture Pipeline のアーキテクチャ全体像

本ファイルは Claude の RQ 形式調査結果を保存したものである。統合分析は RQ-054_knowledge_capture_pipeline_synthesis.md を参照。

メタ情報

調査開始日：2026年5月
調査者：代表取締役 (bizlp 代表)、Claude (壁打ち役)
動機：bizlp 内で Knowledge Capture Pipeline 実装を検討中。実装着手前の意思決定地図を得るため
確証度の表記凡例：
- ◎ 一次情報・複数論文で裏付け、再現性高
- ◯ 公式ベンダ情報や論文1件で裏付け
- △ ベンダブログや個別事例ベース、要追試
- ✕ 出典未確認、要検証

主RQ

RQ0: Knowledge Capture Pipeline をbizlpに導入する場合、どのアーキテクチャパターンを採用すべきか?

現時点での回答（暫定）：本調査は「一般論としての地図」を得ることに留めた。一般論として、コーパス規模・更新頻度・関係性・監査要件の4軸で6パターンが使い分けられる構造が明らかになった。bizlp適用判断は別途RQとして立ち上げる必要がある。

副RQ群

RQ1: Knowledge Capture Pipeline はETL/ELT/データレイク等の従来概念と何が違うのか?

回答要約：従来概念とは「最終消費先がLLMコンテキスト窓」という点で決定的に異なる。ETL/ELTはBI向け、データレイクは生データ保管が主目的。Knowledge Capture Pipelineは「意味境界・埋め込み・メタデータ抽出」を一級市民とし、能動的索引化を行う。

確証度：◎ Gao et al. 2024 (arXiv:2312.10997) で定義が明確

RQ2: パイプラインの標準段分解はどう描けるか?

回答要約：5段の責務分離が標準。Ingestion / Extraction / Transformation / Indexing-Storage / Retrieval。複雑度の集中点はそれぞれ、認証・ACL継承、PDF/Officeレイアウト崩れ、チャンク境界とID/version管理、upsert vs rebuild整合性、再現率と精度のトレードオフ。

確証度：◎ LlamaIndex公式、Supabase RAG with Permissions等で裏付け

RQ3: アーキテクチャパターンの概要

6パターン：Naive RAG / Advanced RAG / Modular RAG / Agentic RAG / GraphRAG / Stream-Incremental型。

RQ3.1 Naive RAG

固定長チャンク＋単一dense retriever＋top-k。代表的失敗：Anthropic SEC filing例でのチャンク境界文脈分断。 確証度：◎

RQ3.2 Advanced RAG

Anthropic Contextual Retrieval (2024年9月) の評価：

ベースライン: 5.7%
Contextual Embeddings単独: 3.7% (35%削減)
+Contextual BM25: 2.9% (49%削減)
+Reranking: 1.9% (67%削減)

失敗パターン：スコア正規化未実施、日本語BM25トークナイザ不適合。 確証度：◎ Anthropic公式ブログで具体数値

RQ3.3 Modular RAG

Gao et al. 2024 (arXiv:2407.21059) の6モジュール×3階層×4フローパターン。失敗パターン：組み合わせ爆発と再現性低下。 確証度：◎

RQ3.4 Agentic RAG

リスク：ループ無限化、ツール選択誤りによる課金事故、軌跡評価欠落。Anthropic "Building Effective Agents" 5 workflowパターン。 確証度：◎

RQ3.5 GraphRAG

Microsoft Research評価：vector RAGベースラインに対しcomprehensiveness 72-83%、diversity 75-82%の勝率 (p<0.01)。LazyGraphRAG (2024年11月) で事前要約コスト大幅削減。 確証度：◎ Edge et al. 2024 (arXiv:2404.16130)

RQ3.6 Stream/Incremental型

Zhu 2025 (arXiv:2508.05662): Recall@10で3ポイント改善 (p<0.01)、end-to-end latency <15ms。埋め込みモデル変更時のブルー・グリーン切替が要考慮。 確証度：△ 単一論文依存

RQ4: チャンク戦略

5アプローチ：固定長、意味境界、階層、Late Chunking (Günther et al. 2024)、Contextual Chunking (Anthropic 2024)。Late ChunkingとContextual Retrievalは補完関係。 確証度：◎

RQ5: 監査要件のある権限境界設計

SpiceDB等ReBAC Pre-Filter方式がベストプラクティス。実装例: Supabase pgvector + RLS、Milvus row-level RBAC。 確証度：◯

RQ6: トレーサビリティ最小要件

source_id, version, ingestion_ts, chunk_id 付与。Self-RAG reflection token。retrieval log保持。旧ベクタ論理削除。 確証度：◯

RQ7: 2025-2026年潮流は置き換えか拡張か

ほぼ全て「拡張」。Late ChunkingはTransformation段置換、Streaming RAGはバッチ前提置換。

RQ8: ケース別推奨（9ケース）

小規模静的 / 大規模高頻度 / 関係性支配 / マルチモーダル / 強監査 / リアルタイム / マルチホップ / 機密マルチテナント / 検索精度極大化

未解決RQ

RQ10: bizlp fit/misfit判定
RQ11: 日本語BM25トークナイザ選定
RQ12: 監査要件下Agentic RAG軌跡監査設計
RQ13: 埋め込みモデルBlue-Green切替
RQ14: GAS環境下権限フィルタ配置
RQ15: ColChunkストレージ削減率原典確認

Caveats

2026年5月時点。特に2025-2026年論文は追試引用が限定的
Gemini版 arXiv:2602.22217 にハルシネーション疑い→除外
日本語環境固有論点は範囲外