探秘 AI 前沿:三项创新技术大揭秘 Marco-o1 Plan×RAG PPTX2MD

# 探秘AI前沿:三项创新技术大揭秘 📖阅读时长:15分钟 🕙发布时间:2025-02-04 > 近日热文:[全网最全的神经网络数学原理(代码和公式)直观解释](https://mp.weixin.qq.com/s/ITFeM-RUVs9k9Kw4njl9KQ?token=992101443&lang=zh_CN) 欢迎关注知乎和公众号的专栏内容 [LLM架构专栏](https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzU5OTk5OTg4Ng==&action=getalbum&album_id=3803710040624594945#wechat_redirect) [知乎LLM专栏](https://zhuanlan.zhihu.com/column/c_1860259327224446976) [知乎【**柏企**】](https://www.zhihu.com/people/cbq-91) 公众号【**柏企科技说**】【**柏企阅文**】 今天,我们一同深入探索AI领域三项引人入胜的创新技术,它们分别在大语言模型推理、复杂问题解决以及文件格式转换方面展现出独特魅力。 ## Marco-o1:助力大语言模型推理的智能登山法 ### 开源代码 https://github.com/AIDC-AI/Marco-o1 ### 生动解读 Marco-o1宛如一支专业的登山探险队,志在探寻登顶的最优路径(解决复杂问题) 。探险队借助路线规划器(思维链,Chain of Thought,CoT),将宏大目标拆解为一个个易于掌控的小步骤,逐步推进。同时,借助无人机(蒙特卡洛树搜索,Monte Carlo Tree Search,MCTS)模拟并探索多条路线,依据置信度分数挑选出最佳路径。此外,团队依靠指南针(反思机制)来校准行进方向。 ![](https://upload-images.jianshu.io/upload_images/17294212-e46d0c04c19809a0.png) ### 技术概述 OpenAI近期发布的o1模型,凭借卓越的推理能力声名远扬,引发众多模仿尝试。Marco-o1便是一种复刻方案,融合了思维链微调、蒙特卡洛树搜索以及反思机制等前沿技术,拓展模型的推理能力。 1. 首先,利用思维链数据对Qwen2–7B-Instruct进行全参数微调,强化其处理复杂任务的能力。值得一提的是,Marco-o1的思维链数据集由蒙特卡洛树搜索生成。 2. Marco-o1的推理过程如下: - **问题分解**:运用思维链将复杂问题拆解为多个子问题。 - **推理路径探索**:结合蒙特卡洛树搜索生成多条推理路径,每条路径对应不同解决方案。 - **反向传播**:计算各路径步骤的置信度分数,以此确定整体路径奖励。 - **选择**:依据置信度分数筛选出最优路径,探索更可能正确的解决方案。 - **答案生成**:基于最优推理路径输出最终答案。 3. 此外,Marco-o1还进行了两项优化: - 引入小步长(32或64个词元),在搜索过程中考虑更精细的步骤,提升模型应对复杂推理任务的能力。 - 引入反思机制,在每次思考过程结束时添加 “等等!或许我犯了些错误!我需要重新思考。” 这一表述,使模型在解决难题时的准确率提高了50%。 ### 技术点评 原本计划深入研究Marco-o1中蒙特卡洛树搜索的具体实现,但截至2024年1月21日,GitHub仓库尚未发布相关代码。另外,有两点值得关注: 1. 反思机制的设计相对简单,主要通过模型重新生成推理路径实现。然而,重新生成的路径是否足够多样,能否有效规避先前错误,尚未在实验中得到充分验证。 2. 奖励信号直接依赖置信度分数,这种单一信号可能导致奖励函数难以精准区分复杂路径的优劣。或许可以引入多维奖励信号,比如结合路径简洁性、任务完成准确率等进行综合评估。 ## Plan×RAG:步步为营、结果可溯的问题解决 “项目经理” ### 生动解读 Plan×RAG如同一位软件项目经理,借助逐步规划(有向无环图,Directed Acyclic Graph,DAG)将复杂问题拆解为简单子任务。它让 “团队成员”(专家模块)协同合作,并融入审计系统(单文档可追溯性)对每个任务结果加以验证。 ![](https://upload-images.jianshu.io/upload_images/17294212-01a616144a58132c.png) ### 技术概述 标准的检索增强生成(RAG)框架采用 “检索 - 推理” 模式,通过检索文档并进行推理来生成回复。但该方法在处理不相关文档、信息不足以及上下文窗口限制等问题时力不从心。此外,RAG难以准确追溯生成内容的文档来源,降低了可信度与可解释性,存在关键缺陷 —— 缺乏归因。 ![](https://upload-images.jianshu.io/upload_images/17294212-cb5275f42241d220.png) Plan×RAG摒弃传统的 “检索 - 推理” 模式,引入 “规划 - 检索” 框架,将复杂查询分解为有向无环图结构的子查询。这里的有向无环图概念与此前介绍的MindSearch类似。 与Self-RAG或RQ-RAG等需要模型微调的方案不同,Plan×RAG使用固定的大语言模型作为即插即用的专家模块,对小型企业而言成本效益更高。 Plan×RAG的工作流程包含5个步骤:接收输入查询、构建推理规划、处理子查询、合并子查询答案、返回最终答案。 ![](https://upload-images.jianshu.io/upload_images/17294212-2e2f18ec88ef6ea1.png) ### 技术点评 有向无环图的引入以及模块化专家的协作机制让人意识到,未来的大语言模型不应仅仅是语言生成工具,更应是可编排的系统。不过,在高负载场景下,有向无环图的实现面临效率挑战,或许可以采用轻量级有向无环图优化算法简化处理流程,或者运用动态有向无环图剪枝技术去除不必要路径。 ## PPTX2MD:PPTX一键转换Markdown格式的利器 ### 开源代码 https://github.com/ssine/pptx2md ### 技术概述 最近发现一款能将PPT转换为Markdown格式的工具,其核心在于`parse`函数。该函数从PPTX幻灯片中提取各类元素,并转换为统一的Python数据结构, ![](https://upload-images.jianshu.io/upload_images/17294212-9641bb318413c7dd.png) 具体代码如下: ```python def parse(config: ConversionConfig, prs: Presentation) -> ParsedPresentation: result = ParsedPresentation(slides=[]) for idx, slide in enumerate(tqdm(prs.slides, desc='Converting slides')): if config.page is not None and idx + 1 != config.page: continue shapes = [] try: shapes = sorted(ungroup_shapes(slide.shapes), key=attrgetter('top', 'left')) except: logger.warning('Bad shapes encountered in this slide. Please check or remove them and try again.') logger.warning('shapes:') try: for sp in slide.shapes: logger.warning(sp.shape_type) logger.warning(sp.top, sp.left, sp.width, sp.height) except: logger.warning('failed to print all bad shapes.') if not config.try_multi_column: result_slide = GeneralSlide(elements=process_shapes(config, shapes, idx + 1)) else: multi_column_slide = get_multi_column_slide_if_present( prs, slide, partial(process_shapes, config=config, slide_id=idx + 1)) if multi_column_slide: result_slide = multi_column_slide else: result_slide = GeneralSlide(elements=process_shapes(config, shapes, idx + 1)) if not config.disable_notes and slide.has_notes_slide: text = slide.notes_slide.notes_text_frame.text if text: result_slide.notes.append(text) result.slides.append(result_slide) return result ``` 它会遍历每张幻灯片,分解并排序其中的形状,再根据形状类型应用特定处理函数,以处理文本块、标题、图片和表格。该工具还能处理多列布局,并在需要时提取备注内容。处理完成后,将所有内容封装进`ParsedPresentation`对象再返回。 ### 技术点评 将PPTX转换为Markdown格式,相比转换为PDF要简单许多,至少有清晰的实现思路。 ## 推荐阅读 [1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理](https://mp.weixin.qq.com/s/mIUcHbXvw5wjT_S2ZryKsw) [2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据](https://mp.weixin.qq.com/s/mEIwT2EvS-5lkrcZqrXp2Q) [3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT](https://mp.weixin.qq.com/s/JmoqQLELLXRjVBSwm_4W5A) [4. DeepSeek R1:了解GRPO和多阶段训练](https://mp.weixin.qq.com/s/qV9R8BshzTqTpQUtA2ficQ) [5. 深度探索:DeepSeek-R1 如何从零开始训练](https://mp.weixin.qq.com/s/To6jUtUK_K-LzWtMpVvvUQ) [6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!](https://mp.weixin.qq.com/s/h9hfBKTenWnO7DKdbY44AQ) 本文由[mdnice](https://mdnice.com/?platform=6)多平台发布
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容