背景
公司AI问答系统使用FastGPT进行AI知识库建设,我有一批问答类数据,导出成了Excel,现在需要使用FastGPT表格数据集能力导入。原以为很简单,实际遇到了一些小坑,在此总结一下,大家不要重蹈覆辙。
正确姿势
先直接说正确方法:
第一步,FastGPT后台知识库-新建/导入-选择表格数据集:

第二步,点击下载CSV模板:

第三步,阅读模板要求,FastGPT表格模板要求只能有两列,index可以当做问题,content可以当做答案,问答对形式,每一行就是一个问答对。
其中CSV要求内容不能包含双引号,实测没有影响,我有很多双引号的文本都没受影响。

第四步,将手上的Excel格式数据按照要求合并成两列,形成问、答形式,并且另存为CSV格式:

第五步,将第四步整理好的CSV文件上传,一路下一步即可。最后我们在知识库列表下就能看到上传的CSV知识库,点击进去能看到每一行数据就是一个索引块,效果符合要求:
我的CSV知识库有几万条数据,只需耐心等待FastGPT自动生成索引即可。


错误误区
正确姿势看似简答,实际在操作过程中,我也躺了很多坑,这里分享一下几个误区:
误区一:不要用xlsx之类的Excel格式导入,只能用csv格式。xlsx格式导入会出现各种错乱,FastGPT似乎把Excel当作一个超大文本做自动切割了。
误区二:能不用问答对提取就不用,如果你的数据集已经足够结构化,就不要用FastGPT的问答对模式,使用直接分块即可。
问答对模式下,FastGPT会将很多详细信息忽略,只留简单的答案,如果你的AI知识库要做到即能回复原因又能给详细解决方案,建议不用FastGPT的问答对提取。

问答对模式的效果:

扩展
如何将Excel的多列数据整合成两列(index和content)?
我们可以利用Excel的公式,将多列文本合并到一起,详细细节可以问AI:
