RAGTechnical Deep Dive

RAG 评估闭环：如何让优化过程可复现

发布时间2025/10/02

分类RAG

预计阅读1 分钟

作者林嘉诚

介绍一套轻量评估闭环，让 RAG 优化从“感觉调参”变为可追踪流程。

01.为什么要做评估闭环

很多团队上线 RAG 后，会马上开始改 chunk、改 embedding、改 rerank，但如果没有固定样本和评估方法，优化结果往往无法复现。

样本至少要包含：

每次变更后运行同一批样本，比较：

失败样本要归因到具体环节，例如：

把失败样本加入回归集，作为下一轮的基准。

先从小规模样本开始，不要追求一次性覆盖全部场景。关键是建立“每次迭代都可对比”的节奏。

评估闭环的目标不是制造复杂流程，而是让每次优化都能解释“为什么有效”。