RAGAS——Metric重写篇

在上一篇踩坑记中,基于我对编程框架的理解,直觉上认为,RAGAS 中的 Metric 作为最终执行层,理论上为了更好地拓展性,都是可以重写里的执行代码,这样面对各种独特的检测需求时,会非常的灵活。

最近终于有时间去检验这个想法。

这次重写的内容是 RAGAS 自带的 faithfullness(答案忠诚度)。

faithfullness

还是推荐各位不太理解概念的,先读一下这篇文章高级RAG(四):RAGAs评估-CSDN博客

答案忠诚度,是指程序给出的答案,是否可以在背景知识中找到,能找到多少,找到的越多,分数越高,最高1分,最低0分。

源码很长,就不单独上了,想要深入了解的可以自己去 GitHub 查看。

在源码中可以看到,FaithFullness 类是继承自 MetricWithLLM 类的,里面只是将 _score_batch 方法进行了重写,而重写的内容也非常简单,就是将答案分成了几个部分,然后分别针对这些内容去判断是否是上下文中包含的内容,如果是则算1分,不是算0分,然后算平均值,就得到了这一条数据的忠诚度。

逻辑很简单,只是这个分数都是通过 GPT 的答案来的,也算是某种意义上的自适应了。

而要改写的话也很简单,因为计算逻辑很简单,也很有效,我们肯定就不需要再去改了。只需要修改 Prompt 中的内容,让得到的结果更符合我们需要的。

所以接下来要去了解一下 Faithfullness 的 Prompt 中都写了什么。

Prompt

这里的 Prompt 分成了两部分。

第一部分是将你的问题和回答传入,GPT 将答案解构成多个部分。

question: Who was  Albert Einstein and what is he best known for?
answer: He was a German-born theoretical physicist, widely acknowledged to be one of the greatest and most influential physicists of all time. He was best known for developing the theory of relativity, he also made important contributions to the development of the theory of quantum mechanics.
statements in json:
{{
    "statements": [
        "Albert Einstein was born in Germany.",
        "Albert Einstein was best known for his theory of relativity."
    ]
}}

然后是第二部分,将你解构后的内容与上下文对比,让 GPT 来判断,这部分的答案是否符合上下文的含义。

Context:
Photosynthesis is a process used by plants, algae, and certain bacteria to convert light energy into chemical energy.
statement_1: Albert Einstein was a genius.
Answer:
[
     {{
        "statement_1": "Albert Einstein was a genius.",
        "reason": "The context and statement are unrelated"
        "verdict": "No"
    }}
]

符合的话,verdict 就是 Yes,否则就是No

从 Prompt 示例中可以看到,举得例子都是偏问答类、解释类的,核心面向的场景就是问答。

但是我们自己的产品或功能,如果直接套用这个示例的话,很可能会变得不伦不类,得不到想要的回答。

重写

比如,我们公司有一个功能,是想要利用 GPT 来给用户反馈进行分类和打标签,大致的内容可能类似如下:

问题:可以帮我将下面的内容打上符合的标签或者确认所属模块吗?

用户反馈:简书的关注列表是按我最近关注的来排序的,经常让我错失一些非常棒的更新。

返回的标签或模块:["关注列表", "功能优化", "BUG"]

我想利用原生的 faithfullness 去生成第一部分(即,将答案解构成多个描述)会得到如下结果:

{
    "statements": [
        "将下面的内容打上符合的标签",
        "确认所属模块"
    ]
}

emmm,看得出来,这是把我的问题给梳理成了多段了,并没有把我的答案梳理成多段。可见,在这个场景下,使用原生的 faithfullness 并不能得到我们想要的结果。

而出现这个问题的原因用很简单——Prompt中的示例在作怪。

第一部分的示例很明显是将问题+答案整合在一起,产生了一个返回结果,而我们只需要修改这个示例,让示例中的解构内容符合我们的期望,就可以避开这个问题。

question: Please help me label this sentence or distinguish the modules it belongs to?
answer: "Bugs", "Work List Module"
statements in json:
{{
    "statements": [
        "This sentence seems to be describing a bug.",
        "This sentence seems to belong to the work list module"
    ]
}}

这样,再下一次生成解构内容时,就会参考我们示例中的逻辑进行拆分。

这里其实暗含了一个不好理解的点,就是用户反馈都没有放进去,就直接放答案,那GPT怎么理解这个答案是怎么来的呢?

其实这个就牵扯到了第二部分了,第一部分GPT其实不需要理解上下文,只需要按照我们示例的格式去将内容解构,而上下文是在第二部分发挥作用。

当然,这部分马上介绍,先贴一下修改后得到的结果。(源码中不止这一个地方要改,详细内容仔细翻看一下源码。)

{
    "statements": [
        "这句话似乎描述了一个关注列表",
        "这句话似乎属于功能优化模块",
        "这句话似乎描述了一个BUG"
    ]
}

OK,非常符合我的预期。继续。

按照相同的逻辑,只需要修改第二部分的示例为如下内容(源码不止一个地方)

Context:
It's obviously unreasonable that deleting posts cannot be done in bulk.
statement_1: This sentence seems to be describing a design issue.
statement_2: This sentence seems to belong to the work list module.
Answer:
[
    {{
        "statement_1": "This sentence seems to be describing a design issue.",
        "reason": "The context seems to be complaining about the lack of corresponding functions, so it is a functional design issue",
        "verdict": "Yes"
    }},
    {{
        "statement_2": "This sentence seems to belong to the work list module.",
        "reason": "The context mainly points out the issue of post management, not the work list.",
        "verdict": "No"
    }}
]

再次 Debug 查看第二段 Prompt 返回的内容如下:

[
    {
        "statement_1": "这句话似乎描述了一个关注列表",
        "reason": "The context is complaining about the sorting of the follow list, so it is related to the follow list module",
        "verdict": "Yes"
    },
    {
        "statement_2": "这句话似乎属于功能优化模块",
        "reason": "The context is not discussing functional optimization, but rather the issue with the follow list sorting",
        "verdict": "No"
    },
    {
        "statement_3": "这句话似乎描述了一个BUG",
        "reason": "The context is not explicitly mentioning a bug, but rather a dissatisfaction with the follow list sorting",
        "verdict": "No"
    }
]

诶,可以看到,已经可以返回我们期望的内容了,但是中间还有一个小问题,就是把功能优化识别成了模块,所以判定为错了。针对这个我们,我们可以在第一步的时候给出 Prompt 去告知 GPT 模块通常只能有一个,就会大大减少这种情况的出现,当然,作为文档,这里就不去纠结了。

总之,通过改写 faithfullness ,终于可以利用 RAGAS 去正确的判断打标签这个功能的效果了。

后记

虽然自己已经比较确定 Metric 是可以自定义的,但是没想到过程如此顺利,只需要简单的修改 Prompt ,保证改写后的输出内容和此前一致,无需修改计算规则,即可顺利的得到结果。

而且从 RAGAS 这里,还看到了一些自适应的影子,由 GPT 去判断 GPT 的效果,哈哈,感觉大家都想到一块去了。这里面还能做特别多的拓展,留待后续慢慢研究了。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容