作为研发人员,有时候希望将api文档网页,结构化排版网页转化为一本电子书,以方便我们做笔记 or 将电子书扔给大模型方便理解,那么应该怎么做呢。。。
工具组合:wget(爬取) + wkhtmltopdf(转换) + pdftk(合并)
操作步骤:
递归爬取全站网页
wget --recursive --no-parent --html-extension --convert-links https://docs.example.com
--recursive:递归下载
--no-parent:限制在目标目录内
--convert-links:将链接转为本地路径
windows上有wget的exe文件下载,以上命令中wget需要替换为wget.exe路径
批量转换HTML为PDF
for /R %i in (*.html) do wkhtmltopdf "%i" "%~ni.pdf"
遍历所有HTML文件,输出同名PDF
需提前安装wkhtmltopdf并添加至系统环境变量
按文件名顺序合并PDF
pdftk *.pdf cat output combined_book.pdf
使用pdftk按文件名自然排序合并,当然用wps合并pdf也很简单,如果pdf文件名本身包含了顺序的话,如下图