Python工具使用举例网络爬虫

Python作为简易上手的编程语言，受到大量应用和追捧，在大数据处理、网络爬虫、图像处理、数据库编程等方面大显其手。比较入门级的应用包含批量下载图片、视频、音频和文字数据。

以某校网站为例，其图片质量不错，仅为了学习目的，尝试了python批量爬取网站中图片，实测有效，不需要一个一个右键保存，适合大量图片网站内容爬取。

编程IDE可以下载python 2.7或更新版本，安装后使用GUI或命令符打开。

首先打开目的网站，右键查看网页源代码，如果是Chrome，也可以F12查阅html代码段，找到图片img src= 的后缀名。

也可以使用如下简单几行Python代码获取网页Html

>>> import urllib2

>>> response = urllib2.urlopen(“目标网址”)

>>> print response.read()

然后将爬取图片的后缀名改为实际服务器存储的后缀名，同样适用于其他数据后缀~~

可以使用IDE运行代码段或CMD运行保存后的py文件。

爬取结果如下截图：

如上仅为工具实例，虽然使用好正则表达式，可以获取公开存储的多种数据类型，但是实际对应网站可能会有不同设置，常见错误有不注意coding编码方式，没有header设定等，目前越来越多的网站设置了外网权限设定，需要绕过设定才可以爬取到数据。

如上图所示，10060代码错误一般意味着网站服务器对于外网的访问策略限制导致，需要设置代理可能绕过去。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Python工具使用举例 网络爬虫