Python工具使用举例 网络爬虫

Python作为简易上手的编程语言,受到大量应用和追捧,在大数据处理、网络爬虫、图像处理、数据库编程等方面大显其手。比较入门级的应用包含批量下载图片、视频、音频和文字数据。

以某校网站为例,其图片质量不错,仅为了学习目的,尝试了python批量爬取网站中图片,实测有效,不需要一个一个右键保存,适合大量图片网站内容爬取。

编程IDE可以下载python 2.7或更新版本,安装后使用GUI或命令符打开。

首先打开目的网站,右键查看网页源代码,如果是Chrome,也可以F12查阅html代码段,找到图片img src= 的后缀名。

也可以使用如下简单几行Python代码获取网页Html

>>> import urllib2

>>> response = urllib2.urlopen(“目标网址”)

>>> print response.read()

然后将爬取图片的后缀名改为实际服务器存储的后缀名,同样适用于其他数据后缀~~

可以使用IDE运行代码段或CMD运行保存后的py文件。

爬取结果如下截图:

如上仅为工具实例,虽然使用好正则表达式,可以获取公开存储的多种数据类型,但是实际对应网站可能会有不同设置,常见错误有不注意coding编码方式,没有header设定等,目前越来越多的网站设置了外网权限设定,需要绕过设定才可以爬取到数据。


如上图所示,10060代码错误一般意味着网站服务器对于外网的访问策略限制导致,需要设置代理可能绕过去。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Python 面向对象Python从设计之初就已经是一门面向对象的语言,正因为如此,在Python中创建一个类和对...
    顺毛阅读 4,238评论 4 16
  • # Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
    aimaile阅读 26,567评论 6 427
  • 原文链接: http://www.jianshu.com/p/9c6ae64a1bd7 GitHub 上有一个 A...
    李绍俊阅读 6,133评论 0 92
  • 好久没写文章了,感觉手生了,忘记了怎么开头又该怎么表达。 好像人处于堕落状态的时候就容易给自己找借口。“明天再开始...
    宣木溪阅读 327评论 2 7
  • 黑蚂蚁的触角 抵着柏油路上的花瓣 将男子汉的慷慨 炫耀在高山面前 烂漫的花期锁在山外 活水浸透了浮尘的躯干 天外顽...
    觉梦2016阅读 238评论 3 2