探秘 AI 前沿：三项创新技术大揭秘 Marco-o1 Plan×RAG PPTX2MD

# 探秘AI前沿：三项创新技术大揭秘 📖阅读时长：15分钟 🕙发布时间：2025-02-04 > 近日热文：[全网最全的神经网络数学原理（代码和公式）直观解释](https://mp.weixin.qq.com/s/ITFeM-RUVs9k9Kw4njl9KQ?token=992101443&lang=zh_CN) 欢迎关注知乎和公众号的专栏内容 [LLM架构专栏](https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzU5OTk5OTg4Ng==&action=getalbum&album_id=3803710040624594945#wechat_redirect) [知乎LLM专栏](https://zhuanlan.zhihu.com/column/c_1860259327224446976) [知乎【**柏企**】](https://www.zhihu.com/people/cbq-91) 公众号【**柏企科技说**】【**柏企阅文**】今天，我们一同深入探索AI领域三项引人入胜的创新技术，它们分别在大语言模型推理、复杂问题解决以及文件格式转换方面展现出独特魅力。 ## Marco-o1：助力大语言模型推理的智能登山法 ### 开源代码 https://github.com/AIDC-AI/Marco-o1 ### 生动解读 Marco-o1宛如一支专业的登山探险队，志在探寻登顶的最优路径（解决复杂问题）。探险队借助路线规划器（思维链，Chain of Thought，CoT），将宏大目标拆解为一个个易于掌控的小步骤，逐步推进。同时，借助无人机（蒙特卡洛树搜索，Monte Carlo Tree Search，MCTS）模拟并探索多条路线，依据置信度分数挑选出最佳路径。此外，团队依靠指南针（反思机制）来校准行进方向。 ![](https://upload-images.jianshu.io/upload_images/17294212-e46d0c04c19809a0.png) ### 技术概述 OpenAI近期发布的o1模型，凭借卓越的推理能力声名远扬，引发众多模仿尝试。Marco-o1便是一种复刻方案，融合了思维链微调、蒙特卡洛树搜索以及反思机制等前沿技术，拓展模型的推理能力。 1. 首先，利用思维链数据对Qwen2–7B-Instruct进行全参数微调，强化其处理复杂任务的能力。值得一提的是，Marco-o1的思维链数据集由蒙特卡洛树搜索生成。 2. Marco-o1的推理过程如下： - **问题分解**：运用思维链将复杂问题拆解为多个子问题。 - **推理路径探索**：结合蒙特卡洛树搜索生成多条推理路径，每条路径对应不同解决方案。 - **反向传播**：计算各路径步骤的置信度分数，以此确定整体路径奖励。 - **选择**：依据置信度分数筛选出最优路径，探索更可能正确的解决方案。 - **答案生成**：基于最优推理路径输出最终答案。 3. 此外，Marco-o1还进行了两项优化： - 引入小步长（32或64个词元），在搜索过程中考虑更精细的步骤，提升模型应对复杂推理任务的能力。 - 引入反思机制，在每次思考过程结束时添加 “等等！或许我犯了些错误！我需要重新思考。” 这一表述，使模型在解决难题时的准确率提高了50%。 ### 技术点评原本计划深入研究Marco-o1中蒙特卡洛树搜索的具体实现，但截至2024年1月21日，GitHub仓库尚未发布相关代码。另外，有两点值得关注： 1. 反思机制的设计相对简单，主要通过模型重新生成推理路径实现。然而，重新生成的路径是否足够多样，能否有效规避先前错误，尚未在实验中得到充分验证。 2. 奖励信号直接依赖置信度分数，这种单一信号可能导致奖励函数难以精准区分复杂路径的优劣。或许可以引入多维奖励信号，比如结合路径简洁性、任务完成准确率等进行综合评估。 ## Plan×RAG：步步为营、结果可溯的问题解决 “项目经理” ### 生动解读 Plan×RAG如同一位软件项目经理，借助逐步规划（有向无环图，Directed Acyclic Graph，DAG）将复杂问题拆解为简单子任务。它让 “团队成员”（专家模块）协同合作，并融入审计系统（单文档可追溯性）对每个任务结果加以验证。 ![](https://upload-images.jianshu.io/upload_images/17294212-01a616144a58132c.png) ### 技术概述标准的检索增强生成（RAG）框架采用 “检索 - 推理” 模式，通过检索文档并进行推理来生成回复。但该方法在处理不相关文档、信息不足以及上下文窗口限制等问题时力不从心。此外，RAG难以准确追溯生成内容的文档来源，降低了可信度与可解释性，存在关键缺陷 —— 缺乏归因。 ![](https://upload-images.jianshu.io/upload_images/17294212-cb5275f42241d220.png) Plan×RAG摒弃传统的 “检索 - 推理” 模式，引入 “规划 - 检索” 框架，将复杂查询分解为有向无环图结构的子查询。这里的有向无环图概念与此前介绍的MindSearch类似。与Self-RAG或RQ-RAG等需要模型微调的方案不同，Plan×RAG使用固定的大语言模型作为即插即用的专家模块，对小型企业而言成本效益更高。 Plan×RAG的工作流程包含5个步骤：接收输入查询、构建推理规划、处理子查询、合并子查询答案、返回最终答案。 ![](https://upload-images.jianshu.io/upload_images/17294212-2e2f18ec88ef6ea1.png) ### 技术点评有向无环图的引入以及模块化专家的协作机制让人意识到，未来的大语言模型不应仅仅是语言生成工具，更应是可编排的系统。不过，在高负载场景下，有向无环图的实现面临效率挑战，或许可以采用轻量级有向无环图优化算法简化处理流程，或者运用动态有向无环图剪枝技术去除不必要路径。 ## PPTX2MD：PPTX一键转换Markdown格式的利器 ### 开源代码 https://github.com/ssine/pptx2md ### 技术概述最近发现一款能将PPT转换为Markdown格式的工具，其核心在于`parse`函数。该函数从PPTX幻灯片中提取各类元素，并转换为统一的Python数据结构， ![](https://upload-images.jianshu.io/upload_images/17294212-9641bb318413c7dd.png) 具体代码如下： ```python def parse(config: ConversionConfig, prs: Presentation) -> ParsedPresentation: result = ParsedPresentation(slides=[]) for idx, slide in enumerate(tqdm(prs.slides, desc='Converting slides')): if config.page is not None and idx + 1 != config.page: continue shapes = [] try: shapes = sorted(ungroup_shapes(slide.shapes), key=attrgetter('top', 'left')) except: logger.warning('Bad shapes encountered in this slide. Please check or remove them and try again.') logger.warning('shapes:') try: for sp in slide.shapes: logger.warning(sp.shape_type) logger.warning(sp.top, sp.left, sp.width, sp.height) except: logger.warning('failed to print all bad shapes.') if not config.try_multi_column: result_slide = GeneralSlide(elements=process_shapes(config, shapes, idx + 1)) else: multi_column_slide = get_multi_column_slide_if_present( prs, slide, partial(process_shapes, config=config, slide_id=idx + 1)) if multi_column_slide: result_slide = multi_column_slide else: result_slide = GeneralSlide(elements=process_shapes(config, shapes, idx + 1)) if not config.disable_notes and slide.has_notes_slide: text = slide.notes_slide.notes_text_frame.text if text: result_slide.notes.append(text) result.slides.append(result_slide) return result ``` 它会遍历每张幻灯片，分解并排序其中的形状，再根据形状类型应用特定处理函数，以处理文本块、标题、图片和表格。该工具还能处理多列布局，并在需要时提取备注内容。处理完成后，将所有内容封装进`ParsedPresentation`对象再返回。 ### 技术点评将PPTX转换为Markdown格式，相比转换为PDF要简单许多，至少有清晰的实现思路。 ## 推荐阅读 [1. DeepSeek-R1的顿悟时刻是如何出现的？背后的数学原理](https://mp.weixin.qq.com/s/mIUcHbXvw5wjT_S2ZryKsw) [2. 微调 DeepSeek LLM：使用监督微调（SFT）与 Hugging Face 数据](https://mp.weixin.qq.com/s/mEIwT2EvS-5lkrcZqrXp2Q) [3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT](https://mp.weixin.qq.com/s/JmoqQLELLXRjVBSwm_4W5A) [4. DeepSeek R1：了解GRPO和多阶段训练](https://mp.weixin.qq.com/s/qV9R8BshzTqTpQUtA2ficQ) [5. 深度探索：DeepSeek-R1 如何从零开始训练](https://mp.weixin.qq.com/s/To6jUtUK_K-LzWtMpVvvUQ) [6. DeepSeek 发布 Janus Pro 7B 多模态模型，免费又强大！](https://mp.weixin.qq.com/s/h9hfBKTenWnO7DKdbY44AQ) 本文由[mdnice](https://mdnice.com/?platform=6)多平台发布

探秘 AI 前沿：三项创新技术大揭秘 Marco-o1 Plan×RAG PPTX2MD

探秘 AI 前沿：三项创新技术大揭秘 Marco-o1 Plan×RAG PPTX2MD

相关阅读更多精彩内容

友情链接更多精彩内容