Spring AI RAG 踩坑记：搞定增量更新/自动去重，终于不用手动导库了

继上一篇讲完Spring AI RAG生产级分片、ES整合和限流熔断之后，好多朋友私信问我：文档更新怎么自动处理？总是重复入库怎么办？能不能不用每次手动跑脚本？

今天就把这三个问题一起解决，全是可运行代码，改改就能用。

为啥要折腾增量更新？全量导入它不香吗？

其实我刚开始做RAG的时候，也觉得全量导入够用了——不就是改完文档，重新跑一遍脚本，等个十几分钟就好了？

直到我的知识库加到两千多份技术文档之后，问题全出来了：

慢到离谱：每次更新重新生成所有向量，要等半小时，大模型API调用量翻几倍，白花花的银子就这么没了

重复内容满天飞：好几次忘记删旧文档，同一个内容存了五六份，检索出来全是重复结果，AI回答准确率直接掉了20%

运维累死人：每次更新都要登服务器跑脚本，忘了更就是旧内容，用户问个最新问题回答全错

后来花了一下午搭了一套增量更新+自动去重+定时入库，现在知识库自己维护自己，我半个月都不用管一次，舒服多了。

第一步：先搞定文档去重，再也不会重复入库

去重逻辑其实特别简单：给每个文档生成一个内容指纹，存之前先查，有就跳过，没有再新增。

我用MD5做指纹，速度快，冲突概率极低，完全够用。

以后每次入库前先过一遍这个工具，相同内容直接跳过，再也不会存一堆重复文档占空间了。

第二步：增量更新，只处理变过的文档，省一半时间

增量更新的核心逻辑也很容易理解：只处理新增/修改过的文档，没动过的直接跳过。

我这里做的是本地文件目录的增量，如果用OSS/MinIO，只需要改一下遍历文件拿修改时间的逻辑就行，核心思路不变。

这样改完之后，我每次更新只需要处理三五篇变更文档，原来半小时现在一分钟搞定，API调用量直接省了90%，太香了。

第三步：配置定时任务，自动入库不用手动跑

Spring Boot原生就支持定时任务，开启之后，设定个时间，每天自动跑增量更新，完全不用人工管。

如果需要处理删除的文档，可以再加一点逻辑：扫描完本地文件之后，对比已经入库的文档列表，把本地已经删掉的文档从向量库删掉就行，需求不一样，改一下很简单。

几个踩坑总结，帮你少走弯路

指纹粒度可以调：我这里是整个文档去重，如果你的多篇文档重复段落很多，可以给每个分片也加指纹，去重粒度更细，省空间效果更好

时间戳存数据库更稳：我写例子存在内存里，生产环境一定要存在Redis或者MySQL，服务重启不会丢时间戳，不然重启之后会重新全量更一次

更新选凌晨跑：生成向量比较吃API，也占点资源，放在业务低峰期跑，不影响白天用户正常用

留手动触发入口：有时候紧急更新，不等定时，直接调接口手动触发，方便很多

最后说两句

现在Spring AI RAG从基础到生产的核心功能差不多更完了：会话持久化、混合检索调优、分片优化、ES整合、限流监控，再加上今天的自动增量更新，基本能满足大部分生产场景的需求了。

核心思路就是，能让机器自动做的就别让人做，能增量处理的就别全量，省时间省成本还少出错。

下一篇准备写Spring AI RAG多租户权限隔离，就是给不同用户看不同文档那种，感兴趣的朋友可以点个关注，更新了会提醒。