rStar论文浅读

来自:Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers

提出 一种自对弈相互推理方法(self-play mutual reasoning approach),使用两个小模型SLM进行交互验证,构建动作池,进行蒙特卡洛树搜索(MCTS)。无监督的形式,可以没有准确答案进行。

Figure 3:An example to illustrate the process of self-generator. Highlighted nodes from top to bottom constitute a complete reasoning trace. Given a question, MCTS augments the target SLM to explore a rich, human-like reasoning action space and generate the next steps based on the current state.

1. 定义了一套类似人类的推理动作:

A1: Propose an one-step thought.
根据现有的推理步骤为给定的问题生成下一步思考
(与生成完整思考的CoT不同,只生成一步思考,简化了推理过程)

A2: Propose the remaining thought steps.
提出剩余的思考步骤。在已有的推理步骤的基础上,提示LLM直接生成剩余步骤,直到得到最终答案。
(与标准的CoT相一致,启用“快速思考”来用更少的步骤解决简单问题)

A3: Propose next sub-question along with its answer.
提出下一个子问题及其答案。此操作受到最少到最多提示法Self-Discover的启发,该方法将复杂问题分解为一系列更简单的子问题,并按顺序解决它们。

A4: Answer the sub-question again.
重新回答子问题。考虑到A3可能没有正确回答子问题,提出此操作来重新回答它。为了提高准确性,此操作提示LLM使用少量示例的链式思考。需要注意的是,A3生成的原始答案没有使用类似链式思考的提示,而是遵循了最少到最多问题分解的提示(Zhou et al., 2022, Self-Discover)

A5: Rephrase the question/sub-question.
重述问题/子问题。在分析错误案例时,发现许多错误是由于LLM误解了问题。例如,它可能忽略了问题中提供的某个特定条件。因此,我们提出一个新的操作,即用更简洁的方式重述问题。具体来说,提示LLM清晰地列出问题陈述中给出的所有条件。

2. 动作消融

消融实验-动作的有效性.png

3. 两个模型的交互一致性

随机mask掉SLM1生成步骤中的句子,让SLM2推理mask掉的部分,看是否最后SLM1和SLM2的答案一致。


两个LM,交互推理的一致性

4. 平衡探索和利用

Upper Confidence Bounds

值得注意的是,Q(reward)的计算采用最多答案在所有答案中的占比,如math问题question中的一个子问题subquestion的答案生成了10个subanswer,分别是【3个1,5个2,2个3】, 那么这个子问题的最有可能的答案会是2,可信度是5/10(也就是reward)
未完待续...

TODO:

代码解读
https://github.com/zhentingqi/rStar

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,287评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,346评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,277评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,132评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,147评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,106评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,019评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,862评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,301评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,521评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,682评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,405评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,996评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,651评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,803评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,674评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,563评论 2 352

推荐阅读更多精彩内容