python爬取pdf

哈哈哈练习爬虫技术,去到了lxml的官网去看那个document
看到那个可以pdf的标准就点开了。
想到res.content可以得到二进制文件信息,大概所有的数据都是可以爬的(图片也是可以的)。pdf类似,估计也是可以这么爬的。于是我就写了下面的这么一段代码。

还算不错,成功了~

代码也很简单~
import requests
res = requests.get('http://lxml.de/lxmldoc-4.1.1.pdf')
res.encoding = res.apparent_encoding
with open('./a.pdf', 'wb') as f:
    f.write(res.content)
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容