Python爬取图片网站资源并下载

首先针对不同网站采取的方式大同小异,但是基本大多数网站,不外乎通过匹配页面元素获取图片路径,或者api接口直接获取。这里主要介绍通过匹配页面元素获取的方式,达到采集图片资源并下载的目的。

这里主要引入的包有下面这些,具体这些包有哪些作用,可以自行了解。

类包

一般采集都会封装成函数,我这里就不封装了:

首先设置一些公共的参数配置,进项相关的准备配置。

path:图片存储路径。

host:采集域名(一般进行资源路径拼接时,可能需要用到)。

url:采集的页面链接(根据情况可配置成灵活路径)。

headers:模拟请求headers头,一般视情况而定。

基本设置

接下来就是进行页面数据的采集匹配了

采集下载图片

其中涉及灵活配置路径,有必要可以试一下,通过requests.get获取页面内容,在通过etree.HTML格式化内容,以便给xpath匹配信息。

拿到资源列表数据后,循环再去取图片资源内容,并写到文件中,基本就完成了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容