在建设AI知识库目前遇到的一些问题随笔

知识库问题是:

  1. 文档在逐步增多之后,造成了知识交叉,很多问题答案被污染了。如何解决。
  2. 由于文档在创建时缺乏规范,导致无法按逻辑切分,切块后不完整,导致回答内容缺失。
  3. 该如何清洗噪声数据,对噪声数据如何靠模型自动分辨如何做?
  4. 有时候用户一个标点符号的添加或缺失,会造成召回的文本差异较大,该如何优化?是该优化向量索引,更换embedding模型或是其它?
  5. graphrag使用开源模型做知识抽取,如何抽取实体和关系比较好? 如果抽取效果不好,该怎样提升优化?
  6. graphrag知识图谱召回太多检索速度慢,模型回复也慢,召回太少又可能丢失准确度,如何优化平衡?
  7. embedding模型如果想微调,微调数据只能人工标注么?如果自动生成,该如何生成微调数据才能保证微调效果?如何评估微调后模型是否更好?
  8. graphrag和传统rag结合,在保证回答效率的情况下应该如何结合?

知识融合现在的问题是:
1、能否将实体和语义向量结合召回,如何结合;
2、如何进行行业多模态知识库建设;
3、如何进行知识剪枝,去除关联性不大的知识;
4、对于开放文档知识,如何进行针对行业的知识提取和图谱构建;
5、如何进行图谱知识召回,是用text2cypher还是其他,如何保证召回速度。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容