哈哈哈练习爬虫技术,去到了lxml的官网去看那个document
看到那个可以pdf的标准就点开了。
想到res.content可以得到二进制文件信息,大概所有的数据都是可以爬的(图片也是可以的)。pdf类似,估计也是可以这么爬的。于是我就写了下面的这么一段代码。
还算不错,成功了~
代码也很简单~
import requests
res = requests.get('http://lxml.de/lxmldoc-4.1.1.pdf')
res.encoding = res.apparent_encoding
with open('./a.pdf', 'wb') as f:
f.write(res.content)