Python初学者笔记(一):最短的抓取网页图片代码,只有10行

这几天闲来无事,又研究了一下Python的基础内容,首先研究的是如何抓取网页数据。为什么把这篇作为初学者笔记呢?只是想让大家感受一下Python的强大的功能和简便的用法。

发现大神们通常在初级教程里就要写很多代码,真让我们这些初学者无所适从。

加上Python的各种版本不同,也会让初学者头脑,在此提醒初学者,看资料一定要注意软件版本号。

还是按照我的原则,凡事要把复杂的说简单,再由简入繁的学习,才是比较科学的方法。

先上代码,再进行分析,以下程序在Python3.6中调试通过。

import urllib.request

import re

link = urllib.request.urlopen("http://dzh.mop.com/")

html_doc = link.read().decode("utf8")

jpg_list = re.findall('http.+?.jpg', html_doc)

n = 1

while n < len(jpg_list) + 1:

    urllib.request.urlretrieve(jpg_list[n - 1], str(n) + '.jpg')

    print("获取第" + str(n) + "张图片,网址是" + jpg_list[n - 1])

    n = n + 1

看吧,我没骗大家,真的只有10行(不包括空行)。

运行完,在项目的目录里,就多出了图片。

运行结果图片

接下来再解释一下:

import urllib.request  

import re  

首先,导入urllib.request库和re库,如果看到资料上有urllib2库,请无视这种资料,因为已经过时了,在Python3以后的版本中,urllib2库被合并到了urllib中,所以urllib整个模块包括urllib.request, urllib.parse, urllib.error三个功能,下面在引用的时候,也可写成urllib.request如何如何。

在接下来的代码中,有四个自定义的变量名称,分别是link、html_doc、jpg_list、n,大概意思是连接、得到html文本内容、jpg的列表、还有一个记数的n,总结你喜欢叫它们什么都行,就是别搞混了。

link = urllib.request.urlopen("http://dzh.mop.com/")  

link变量等于请求打开http://dzh.mop.com/网址。

html_doc = link.read().decode("utf8")  

html_doc 等于link里的内容,并指定为utf8编码的文档(utf8是一种可变长度字符编码,可以在一个网页上显示多种语言)。

jpg_list = re.findall('http.+?.jpg', html_doc)  

得到一个jpg_list列表,内容是用re.findall命令查找html_doc里所有符合开头和结尾是'http.+?.jpg'的字段,就是网址了。

这个里涉及一个术语叫“正则表达式”,需要另外学习一下,它能从字符串中获取我们想要的指定部分,其实类似DOS系统的“通配符”。

接下来,要统计一下符合我们需要的网址有多少个,用len(jpg_list)就可以得到,但是list是从0开始的,所以要加上1。

用urllib.request.urlretrieve功能下载jpg_list中的图片,并用数字转字符的n加'.jpg'来命名。

下一句print是废话,是怕在下载的过程中我们太寂寞。

n = n + 1就是第一张下载完了,再去下载第二张,直到len(jpg_list) 统计的个数的图片都下载完。

n = 1  

while n< len(jpg_list) + 1:  

    urllib.request.urlretrieve(jpg_list[n - 1], str(n) + '.jpg')  

    print("获取第" + str(n) + "张图片,网址是" + jpg_list[n - 1])  

n = n + 1  

当然,这段代码还解决不了比如下载图片太多,主机会断开连接等问题。

但是初学者先从基本的学习,再慢慢扩展,这个是学习的必经之路。

当然,为了追求行数少,这段代码只用7行加2个变量就能搞定,不过初学者更容易看晕:

import urllib.request  

import re  

jpg_list = re.findall('http.+?.jpg', urllib.request.urlopen("http://dzh.mop.com/").read().decode("utf8"))  

n =1  

while n < len(jpg_list) + 1:  

urllib.request.urlretrieve(jpg_list[n -1], str(n) + '.jpg')  

n = n +1  

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,588评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,456评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,146评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,387评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,481评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,510评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,522评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,296评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,745评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,039评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,202评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,901评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,538评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,165评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,415评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,081评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,085评论 2 352

推荐阅读更多精彩内容