RAG

RAG是什么?

RAG(Retrieval Augmented Generation),检索增强生成,可以理解为知识增强外挂。是一种使大语言模型在生成回答时能够读取外部信息的技术,该技术可以简单理解为生成内容之前,先从外部知识库中检索出相关信息作为参考。
举个例子:

提问:『 我们公司几点下班?』

--大模型回答这个问题,一般不会准确,因为它没见过我们公司的《员工手册》

#####################  RAG如何做? ###################
step1:基于用户的提问,到《员工手册》里找到最相关的N个内容片段;
step2:把用户提问和N个内容片段一起送到大模型中,获得答案。
###################################################

提问:『 请参考员工手册,回答以下问题:我们公司几点下班?
        员工手册内容如下:遵守上班时间不迟到、不早退......工作时间每周一至周五上午9:00到下午5:00......
      』

回复:『 下班时间是下午5点,是根据对工作时间每周一至周五上午9:00到下午5:00分析而来的。』

为什么有RAG?

RAG的优势或特点:
1、支持实时性和动态更新,外部知识库可以随时更新,而不需要重新训练整个模型;
2、可解释性和可控性,RAG模型通过检索具体的文档片段来生成答案,这些片段可以被用户或开发者查看和验证;
3、 减少幻觉现象,大型预训练模型有时会产生与事实不符的输出,即所谓的“幻觉”现象,提高生成内容的准确性。
注:“幻觉”是指模型生成不正确、无意义或不真实文本的现象。比如,逻辑谬误、捏造事实、数据驱动偏见。
4、 灵活性和扩展性,可以针对特定领域的知识库进行优化,以提高特定任务的性能。
5、多模态支持,RAG模型不仅可以处理文本信息,还可以集成其他类型的数据(如图像、视频)进行检索和生成。

RAG架构

1.jpg

RAG关键技术

2.jpg

1、指代消除

3.jpg

2、问题扩展

4.jpg

3、混合检索

向量检索的短板:通过少量字符进行检索时,向量检索效果不佳
搜索一个人或物品的名称(例如马斯克,iPhone 15)
搜索缩写词或短语(例如,vpn、邮箱前缀)
关键词检索的短板:语义理解不足,难以深入理解查询意图背后的语义含义
例如,用户查询“明天的天气如何”,系统可能只关注“明天”和“天气”这两个关键词,无法准确理解用户是希望查询当地还是特定地区的天气。
比如,“计算机”和“电脑”是同义词,但如果用户输入其中一个词进行检索,而文档中使用的是另一个词,就可能导致相关信息的遗漏。


5.jpg

4、结果合并

6.jpg

5、结果重排

为什么要重新排序?

检索环节的存在的问题:检索环节引入了向量检索,其实现方式是通过将用户提问以及待查询的文本分片进行嵌入(Embedding)处理,然后通过计算两个向量之间的余弦距离,找到最相近的结果。该过程的优势在于计算高效,缺点是结果不精确。
重排环节的优势:重排环节不经过嵌入(Embedding)过程,避免了语义的损失,得到的结果更加精确,Llamaindex 实验表明重排对平均倒数排名(MRR)提升20%。


7.jpg

效果评估指标

检索环节:
Context Precision(上下文精度)
Context Recall(上下文召回)
生成环节:
Faithfulness(忠诚度)
Answer relevance(答案相关性)


v2-5211f412f120f3935f3e32afb77cdd24_1440w.jpg

RAG面临的一些挑战

1、内容切片不够好,容易切碎。
2、文本模型生成的向量质量不可控。
3、召回的内容太少不容易命中答案,召回的内容太多容易干扰答案生成。
4、多次调用LLM,生成回复的时间太长

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容