RQ-054 Claude Result: Knowledge Capture Pipeline のアーキテクチャ全体像
本ファイルは Claude の RQ 形式調査結果を保存したものである。統合分析は
RQ-054_knowledge_capture_pipeline_synthesis.mdを参照。
メタ情報
- 調査開始日:2026年5月
- 調査者:代表取締役 (bizlp 代表)、Claude (壁打ち役)
- 動機:bizlp 内で Knowledge Capture Pipeline 実装を検討中。実装着手前の意思決定地図を得るため
- 確証度の表記凡例:
- ◎ 一次情報・複数論文で裏付け、再現性高
- ◯ 公式ベンダ情報や論文1件で裏付け
- △ ベンダブログや個別事例ベース、要追試
- ✕ 出典未確認、要検証
主RQ
RQ0: Knowledge Capture Pipeline をbizlpに導入する場合、どのアーキテクチャパターンを採用すべきか?
現時点での回答(暫定):本調査は「一般論としての地図」を得ることに留めた。一般論として、コーパス規模・更新頻度・関係性・監査要件の4軸で6パターンが使い分けられる構造が明らかになった。bizlp適用判断は別途RQとして立ち上げる必要がある。
副RQ群
RQ1: Knowledge Capture Pipeline はETL/ELT/データレイク等の従来概念と何が違うのか?
回答要約:従来概念とは「最終消費先がLLMコンテキスト窓」という点で決定的に異なる。ETL/ELTはBI向け、データレイクは生データ保管が主目的。Knowledge Capture Pipelineは「意味境界・埋め込み・メタデータ抽出」を一級市民とし、能動的索引化を行う。
確証度:◎ Gao et al. 2024 (arXiv:2312.10997) で定義が明確
RQ2: パイプラインの標準段分解はどう描けるか?
回答要約:5段の責務分離が標準。Ingestion / Extraction / Transformation / Indexing-Storage / Retrieval。複雑度の集中点はそれぞれ、認証・ACL継承、PDF/Officeレイアウト崩れ、チャンク境界とID/version管理、upsert vs rebuild整合性、再現率と精度のトレードオフ。
確証度:◎ LlamaIndex公式、Supabase RAG with Permissions等で裏付け
RQ3: アーキテクチャパターンの概要
6パターン:Naive RAG / Advanced RAG / Modular RAG / Agentic RAG / GraphRAG / Stream-Incremental型。
RQ3.1 Naive RAG
固定長チャンク+単一dense retriever+top-k。代表的失敗:Anthropic SEC filing例でのチャンク境界文脈分断。 確証度:◎
RQ3.2 Advanced RAG
Anthropic Contextual Retrieval (2024年9月) の評価:
- ベースライン: 5.7%
- Contextual Embeddings単独: 3.7% (35%削減)
- +Contextual BM25: 2.9% (49%削減)
- +Reranking: 1.9% (67%削減)
失敗パターン:スコア正規化未実施、日本語BM25トークナイザ不適合。 確証度:◎ Anthropic公式ブログで具体数値
RQ3.3 Modular RAG
Gao et al. 2024 (arXiv:2407.21059) の6モジュール×3階層×4フローパターン。失敗パターン:組み合わせ爆発と再現性低下。 確証度:◎
RQ3.4 Agentic RAG
リスク:ループ無限化、ツール選択誤りによる課金事故、軌跡評価欠落。Anthropic "Building Effective Agents" 5 workflowパターン。 確証度:◎
RQ3.5 GraphRAG
Microsoft Research評価:vector RAGベースラインに対しcomprehensiveness 72-83%、diversity 75-82%の勝率 (p<0.01)。LazyGraphRAG (2024年11月) で事前要約コスト大幅削減。 確証度:◎ Edge et al. 2024 (arXiv:2404.16130)
RQ3.6 Stream/Incremental型
Zhu 2025 (arXiv:2508.05662): Recall@10で3ポイント改善 (p<0.01)、end-to-end latency <15ms。埋め込みモデル変更時のブルー・グリーン切替が要考慮。 確証度:△ 単一論文依存
RQ4: チャンク戦略
5アプローチ:固定長、意味境界、階層、Late Chunking (Günther et al. 2024)、Contextual Chunking (Anthropic 2024)。Late ChunkingとContextual Retrievalは補完関係。 確証度:◎
RQ5: 監査要件のある権限境界設計
SpiceDB等ReBAC Pre-Filter方式がベストプラクティス。実装例: Supabase pgvector + RLS、Milvus row-level RBAC。 確証度:◯
RQ6: トレーサビリティ最小要件
source_id, version, ingestion_ts, chunk_id 付与。Self-RAG reflection token。retrieval log保持。旧ベクタ論理削除。 確証度:◯
RQ7: 2025-2026年潮流は置き換えか拡張か
ほぼ全て「拡張」。Late ChunkingはTransformation段置換、Streaming RAGはバッチ前提置換。
RQ8: ケース別推奨(9ケース)
小規模静的 / 大規模高頻度 / 関係性支配 / マルチモーダル / 強監査 / リアルタイム / マルチホップ / 機密マルチテナント / 検索精度極大化
未解決RQ
- RQ10: bizlp fit/misfit判定
- RQ11: 日本語BM25トークナイザ選定
- RQ12: 監査要件下Agentic RAG軌跡監査設計
- RQ13: 埋め込みモデルBlue-Green切替
- RQ14: GAS環境下権限フィルタ配置
- RQ15: ColChunkストレージ削減率原典確認
Caveats
- 2026年5月時点。特に2025-2026年論文は追試引用が限定的
- Gemini版 arXiv:2602.22217 にハルシネーション疑い→除外
- 日本語環境固有論点は範囲外