找重要的事件
- 比如给定一个主题,我们取召回素材,然后把素材给到大模型,在prompt里面让他挑选重要的事件,并总结。
- 效果上看,一般都会做的比较泛泛。总结的内容可能也包含多个不同的事件。
- 设计流程的重要性: 一个原则,大模型做的事情越多,也就是prompt的指令越多,他就越难以遵循。
所以我们尝试对问题进行拆分和更加精细化的控制: - 大模型挑选重点,只输出一个事件,比如控制时效,事件的类型等,
- 用这一个输出的事件,做二次召回,召回的内容其实也更好了。
- 用大模型重新总结。这个时候你可以理解为,我们的问题和素材其实已经更优了,大模型总结的效果会更好一些。
大模型是一个工具,对流程和业务的重新塑造需要我们的经验和思考,通常大家都会走的路,一般带来不来什么优势。
设计流程,巧妙的利用工具也是一个核心竞争力
大模型交互式的应用
- 大模型本身的不确定性,需要我们引入实时反馈。
- 比如多次执行的时候,有时候中间结果很好,但是很难评测。
- 如果我们在执行的流程和plan中,能够很好的引入实时反馈,那么可以很好的提升整个流程的质量。
- 比如5个任务,每个任务的满意度是90%,合起来就比较低了。
-如果我们将任务引入实时反馈机制,每个任务的准确率提升到99%,那么效果是不是好很多。 - 目前的反馈机制,大多数是使用模型自己评价。比如使用其他模型来作为reward模型。
- 有一点强化学习的感觉。
企业级应用的高确定新和高质量
- RAG不可能解决专业场景的问题,他的能力边界和业务边界,应该被限定在问答,一种探索式的问答。也就是对搜索的升级。
- 搜索的核心还是作为 业务场景的一部分,帮我们更好的找到知识。但是离我们业务的完整链路还有很大的距离。
- 比如我要做一个新能源的报告,我可能要调用20次RAG 和 10个专业工具,才能完成。我们不可能在RAG里面 用prompt帮我们完成。
- 所以我们的思路还是有10个RAG 专业场景优化agent,10个专业工具agent。然后给到大模型取做agent 的编排。
- 所以我觉得要解决专业性问题,还是需要agent工具,这些工具可以是大模型主导的,他的质量是达到一个要求,就是单独领出来,质量审核是过关的。
- 然后是自动化组合agent,替代人共编排,使用工具、等待工具,收集结果等一系列的任务
- 只有这样才能解决企业应用领域对专业度要求搞的问题。