Python爬取图片网站资源并下载

首先针对不同网站采取的方式大同小异，但是基本大多数网站，不外乎通过匹配页面元素获取图片路径，或者api接口直接获取。这里主要介绍通过匹配页面元素获取的方式，达到采集图片资源并下载的目的。

这里主要引入的包有下面这些，具体这些包有哪些作用，可以自行了解。

类包

一般采集都会封装成函数，我这里就不封装了：

首先设置一些公共的参数配置，进项相关的准备配置。

path:图片存储路径。

host:采集域名(一般进行资源路径拼接时，可能需要用到)。

url:采集的页面链接(根据情况可配置成灵活路径)。

headers:模拟请求headers头，一般视情况而定。

基本设置

接下来就是进行页面数据的采集匹配了

采集下载图片

其中涉及灵活配置路径，有必要可以试一下，通过requests.get获取页面内容，在通过etree.HTML格式化内容，以便给xpath匹配信息。

拿到资源列表数据后，循环再去取图片资源内容，并写到文件中，基本就完成了。

最后编辑于：2021.04.08 17:51:47

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。