python 爬虫学习 第二弹

连续好几天不更新了,以后坚持每周更新两篇,要养成一个自律的好习惯,才有可能摆脱一个菜鸟

本章实现的是一个简单的爬虫,爬取贴吧图片

首先还是简单介绍一下本章使用的三个库

1.urllib 上一弹简单介绍过 是用来进行url请求的库

2.re 库 是用来从html 库中解析获取图片的

3.os库是系统库,获取系统的某些信息

主要分为一下几个步骤

1.根据url获取网页html内容

2.从html中解析出所有的jpg 或者png图片的url

3.用图片url下载图片并保存成指定的文件名

第一步 根据url获取网页html内容


第二步 从html中解析出所有jpg或者png图片的url


备注:在解析图片url的时候使用到了 正则表达式 (非常重要的东西) 以后网络爬取的时候会经常用到

第三步 用图片url下载图片并保存成指定文件名


以下是完整的代码


代码很简单,多多练习熟能生巧,每天学习一点新东西,早日摆脱菜鸟,做一名合格的程序猿,加油~~~

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容