将网站转pdf电子书的步骤

作为研发人员,有时候希望将api文档网页,结构化排版网页转化为一本电子书,以方便我们做笔记 or 将电子书扔给大模型方便理解,那么应该怎么做呢。。。

工具组合:wget(爬取) + wkhtmltopdf(转换) + pdftk(合并)

操作步骤:

递归爬取全站网页

wget --recursive --no-parent --html-extension --convert-links https://docs.example.com


--recursive:递归下载

--no-parent:限制在目标目录内

--convert-links:将链接转为本地路径


windows上有wget的exe文件下载,以上命令中wget需要替换为wget.exe路径



批量转换HTML为PDF

for /R %i in (*.html) do wkhtmltopdf "%i" "%~ni.pdf"


遍历所有HTML文件,输出同名PDF

需提前安装wkhtmltopdf并添加至系统环境变量




按文件名顺序合并PDF

pdftk *.pdf cat output combined_book.pdf


使用pdftk按文件名自然排序合并,当然用wps合并pdf也很简单,如果pdf文件名本身包含了顺序的话,如下图


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容