我给 Claude Code 装了个 PDF 解析 Skill,再也不用手动转格式了


Claude Code、Cursor、Windsurf 这些 Code Agent 用起来很爽,但都有个共同的短板:没法直接读 PDF 和截图。你让它读一份产品文档,它会告诉你"无法读取",开发流程就断在这里了。


解决办法是装一个 MinerU 的 Skill,一行命令:


npx skills add tanis90/pdf-converter-mineru


装完之后 Code Agent 就能直接解析 PDF 了。下面说说原理和实际用起来的效果。


为什么用 Skill 而不是自己搭 MCP Server


"文档阅读"是个无状态需求,用 Skill 比自己配解析服务器轻量得多:


一行命令装好,不用 Docker,不用配环境变量,没有后台进程。

基于 OpenClaw 开放标准,Claude Code、Cursor、Windsurf 都能用。

免费,不需要 API Key。内置智能判断,会根据文档大小自动选解析策略。


实际对比过:没装之前要手动打开 PDF、截取内容、粘贴到终端,还经常格式错乱。装了之后直接对话就行。


实际用起来什么样


场景 1:解析 API 文档写代码


很多老的内部接口文档只有 PDF 格式。直接跟 Agent 说:


"帮我读一下这篇 api_spec.pdf,重点看认证授权章节,然后用 Python 写一个支持重试机制的 client。"


Agent 会自动调 MinerU Skill 把 PDF 转成 Markdown(用 flash-extract),然后从里面提取认证参数写代码。


场景 2:带复杂表格和公式的论文


复现论文时最怕表格数据对不齐、公式变乱码:


"解析这篇 attention.pdf,把第四章的对比表格提取出来作为代码测试的 mocked data。"


双栏排版的顶会论文也能还原成 Markdown,AI 可以正常读取。


MinerU 是什么


这个 Skill 背后是上海人工智能实验室开源的文档解析引擎 MinerU,GitHub 56.9K+ Stars,OmniDocBench 综合评测第一。


和 PyPDF2 这类简单提取库不同,MinerU 有两套引擎(Pipeline + 基于 InternVL 的视觉多模态模型),在公式(CDM 97.29)、嵌套表格(TEDS-S 94.48%)、图文混排上的表现都不错。转出来的 Markdown 很适合喂给 LLM 和 RAG 系统。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容