RAGTechnical Deep Dive
RAG 评估闭环:如何让优化过程可复现
发布时间2025/10/02
分类RAG
预计阅读1 分钟
作者林嘉诚
*
介绍一套轻量评估闭环,让 RAG 优化从“感觉调参”变为可追踪流程。
01.为什么要做评估闭环
很多团队上线 RAG 后,会马上开始改 chunk、改 embedding、改 rerank, 但如果没有固定样本和评估方法,优化结果往往无法复现。
02.评估闭环的四个环节
样本管理
样本至少要包含:
- •用户问题
- •期望答案
- •关键证据片段
批量评测
每次变更后运行同一批样本,比较:
- •Top-K 召回命中
- •引用片段相关性
- •最终回答可用性
失败归因
失败样本要归因到具体环节,例如:
- •查询重写偏离意图
- •检索策略选择错误
- •生成阶段忽略高质量证据
回流优化
把失败样本加入回归集,作为下一轮的基准。
03.实施建议
先从小规模样本开始,不要追求一次性覆盖全部场景。 关键是建立“每次迭代都可对比”的节奏。
04.结语
评估闭环的目标不是制造复杂流程,而是让每次优化都能解释“为什么有效”。