登录注册写文章

在建设AI知识库目前遇到的一些问题随笔

在建设AI知识库目前遇到的一些问题随笔

知识库问题是：

文档在逐步增多之后，造成了知识交叉，很多问题答案被污染了。如何解决。
由于文档在创建时缺乏规范，导致无法按逻辑切分，切块后不完整，导致回答内容缺失。
该如何清洗噪声数据,对噪声数据如何靠模型自动分辨如何做?
有时候用户一个标点符号的添加或缺失,会造成召回的文本差异较大,该如何优化？是该优化向量索引,更换embedding模型或是其它?
graphrag使用开源模型做知识抽取,如何抽取实体和关系比较好? 如果抽取效果不好,该怎样提升优化?
graphrag知识图谱召回太多检索速度慢,模型回复也慢,召回太少又可能丢失准确度,如何优化平衡?
embedding模型如果想微调,微调数据只能人工标注么？如果自动生成,该如何生成微调数据才能保证微调效果?如何评估微调后模型是否更好?
graphrag和传统rag结合，在保证回答效率的情况下应该如何结合？

知识融合现在的问题是：
1、能否将实体和语义向量结合召回，如何结合；
2、如何进行行业多模态知识库建设；
3、如何进行知识剪枝，去除关联性不大的知识；
4、对于开放文档知识，如何进行针对行业的知识提取和图谱构建；
5、如何进行图谱知识召回，是用text2cypher还是其他，如何保证召回速度。

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

为你揭秘知乎是如何搞AI的——窥大厂 | 数智方法论第1期
文章发布于公号【数智物语】（ID：decision_engine），关注公号不错过每一篇干货。数智物语（公众号I...
数智物语阅读 4,459评论 0赞 4
推荐系统的技术栈
推荐系统是一个非常大的框架，有非常多的模块在里面，完整的一套推荐系统体系里，不仅会涉及到推荐算法工程师、后台开发工...
晓柒NLP与药物设计阅读 5,826评论 0赞 15
2021-08-26 一些想法和记录
20210825: 1、推荐算法涉及基于GCN的推荐该怎么搞？https://www.163.com/dy/ar...
是黄小胖呀阅读 1,111评论 0赞 0
AI基础知识总结
1 为什么要对特征做归一化特征归一化是将所有特征都统一到一个大致相同的数值区间内，通常为[0,1]。常用的特征归...
顾子豪阅读 5,390评论 0赞 1
AI基础知识总结
1 为什么要对特征做归一化特征归一化是将所有特征都统一到一个大致相同的数值区间内，通常为[0,1]。常用的特征归...
顾子豪阅读 11,770评论 2赞 22

赞1赞

赞赏

手机看全文