知识库问题是:
- 文档在逐步增多之后,造成了知识交叉,很多问题答案被污染了。如何解决。
- 由于文档在创建时缺乏规范,导致无法按逻辑切分,切块后不完整,导致回答内容缺失。
- 该如何清洗噪声数据,对噪声数据如何靠模型自动分辨如何做?
- 有时候用户一个标点符号的添加或缺失,会造成召回的文本差异较大,该如何优化?是该优化向量索引,更换embedding模型或是其它?
- graphrag使用开源模型做知识抽取,如何抽取实体和关系比较好? 如果抽取效果不好,该怎样提升优化?
- graphrag知识图谱召回太多检索速度慢,模型回复也慢,召回太少又可能丢失准确度,如何优化平衡?
- embedding模型如果想微调,微调数据只能人工标注么?如果自动生成,该如何生成微调数据才能保证微调效果?如何评估微调后模型是否更好?
- graphrag和传统rag结合,在保证回答效率的情况下应该如何结合?
知识融合现在的问题是:
1、能否将实体和语义向量结合召回,如何结合;
2、如何进行行业多模态知识库建设;
3、如何进行知识剪枝,去除关联性不大的知识;
4、对于开放文档知识,如何进行针对行业的知识提取和图谱构建;
5、如何进行图谱知识召回,是用text2cypher还是其他,如何保证召回速度。