聚沙成塔--爬虫系列(七)(妹子,快到碗里来)

版权声明:本文为作者原创文章,可以随意转载,但必须在明确位置标明出处!!!

前面章节的代码可以看出,我们并没有把「好笑数」,「图像的url地址」取到,从糗百主页我们可以看到有些用户发表的段子里包含了图片,那我们怎么取到这些图片呢,本篇老谢将教会大家如何把网络上的图片取到本地,这个技能你们一定要get到。get到了以后再看到漂亮妹子的图片再也不用右键将图片保存在本地了,哈哈哈...;此种神功,我练定了。

东方不败-林青霞

练此神功口诀

通过糗事百科主页我们可以看出有些用户发表的段子带了图片,有些又没有图片只有文本内容,前面文章的代码我们只能取出每个用户的文本内容并不能取到图片内容,那么要怎么才能取到图片内容呢?

  • 口诀一:观察!观察!观察!
    重要的事说三遍,做爬虫最精髓的地方就是观察,外加一点猜测,观察什么呢,观察带图片发表的用户和只有文本用户在html源码中的区别,怎么在源码中快速找到它们的区别呢,当然是用F12开发者工具了,如果你是初学者请一定要看前面章节的内容。
  • 口诀二: 过滤,筛选
    观察过后,使用正则表达式过滤,筛选是个永恒的主题,当然后面我们还会讲到Beautify soup、xpath、lxml等第三方库,第三方库有它的优势,也有它的劣势,就拿Beautify Soup来说,如果我们访问的页面不标准或者不完整,那么你或许拿不到你想要的结果。这种第三方库解决不了的问题就只能用最原始的正则表达式了,所以学好正则表达式是你不得不具备的技能。

观察

通过F12开发者工具我们看看带图片的和不带图片的有什么区别,当我们通过快速定位是可以看到有图片的包含在一个</div class='thumb'>...</div>中,这个时候我们不要马上就取编写正则表达式,我们还得去看看没有图片的有没有包含这对元素,如果有那么我们编写代码的逻辑就会和没有的不一样了,通过观察我们发现不带图片的并没有包含</div class='thumb'>...</div>这对元素,如下图:

带图片和不带图片的差异

过滤

差异找到了剩下的就是过滤了,如何过滤呢,这里就需要我们稍稍东东脑子了,想想有的用户发表是带了图片的有的用户发表是没有带图片的,如果这个时候我们还像前面文章那样把正则表达式写在

pattern = re.compile(r'<a href="(.*?)".*?<h2>(.*?)</h2>.*?<div class="content">(.*?)</div>.*?<div class="thumb">.*?src="(.*?)".*?<i class="number">(.*?)</i>', re.S)

这个表达式里,那么我们肯定得不到我们想要的结果,想想是为什么,因为如果某个用户没有发表图片,那么我们使用这个表达式肯定连该用户发表的文本信息也拿不到了。所以我们必须的把匹配图片的正则表达式和之前的正则表达式分开来写

pattern = re.compile(r'<a href="(.*?)".*?<h2>(.*?)</h2>.*?<div class="content">(.*?)</div>.*?<i class="number">(.*?)</i>', re.S)
picture = re.compile(r'<div class="thumb">.*?src="(.*?)"', re.S)

编码实现

from urllib import request
from urllib import error
import re
import os
url = 'https://www.qiushibaike.com'
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
headers = {'User-Agent': user_agent}


def read_html(url, headers, codec):
    '''[read_html]
    [读取html页面内容]
    Arguments:
        url {[string]} -- [url地址]
        headers {[dict]} -- [用户代理,这里是一个字典类型]
        codec {[string]} -- [编码方式]    
    Returns:
        [string] -- [页面内容]
    '''
    # 构建一个请求对象
    try:
        req = request.Request(url, headers=headers)
        # 打开一个请求
        response = request.urlopen(req)
        # 读取服务器返回的页面数据内容
        content = response.read().decode(codec)
        return content
    except error.URLError as e:
        print(e.reason)
        return None
def match_element(content, pattern):
    '''[match_element]
    
    [匹配元素]
    
    Arguments:
        content {[string]} -- [文本内容]
        pattern {[object]} -- [匹配模式]

    Returns:
        [list] -- [匹配到的元素]
    '''
    # 匹配所有用户信息
    
    userinfos = re.findall(pattern, content)
    
    return userinfos

content = read_html(url, headers, 'utf-8')
pattern = re.compile(r'<div class="article block untagged mb15[\s\S]*?class="stats-vote".*?</div>', re.S)
if content:
    userinfos = match_element(content, pattern)

    if userinfos:
        pattern = re.compile(r'<a href="(.*?)".*?<h2>(.*?)</h2>.*?<div class="content">(.*?)</div>.*?<i class="number">(.*?)</i>', re.S)
        picture = re.compile(r'<div class="thumb">.*?src="(.*?)"', re.S)
        for userinfo in userinfos:
            item = match_element(userinfo, pattern)
            pictures = match_element(userinfo, picture)
            try:
                if item:
                    userid, name, content, num = item[0]
                    # 去掉换行符,<span></span>,<br/>符号
                    userid = re.sub(r'\n|<span>|</span>|<br/>', '', userid)
                    name = re.sub(r'\n|<span>|</span>|<br/>', '', name)
                    content = re.sub(r'\n|<span>|</span>|<br/>', '', content)
                    
                    if pictures:
                        path = './users/'
                        if not os.path.exists(path):
                            os.makedirs(path)

                        request.urlretrieve('http:' + pictures[0], path + os.path.basename(pictures[0]))
                    
                        print((userid, name, content, num, pictures[0]))
                    else:
                        print((userid, name, content, num ))
            except Exception as e:
                print(e)

执行结果

('/users/20735073/', '优雅文艺范', '我小徒弟问我:“师傅,你多大了?”“22啊,问这个干嘛”“那你结婚了吗”“没有啊”“你怎么还不结婚啊?现在像你这么大的二胎都会走路了”“那你多大了?”“22啊”“那你孩子呢?”“在家我婆婆带着呢,怎么了?”“。。。没事,我就问问”', '683')
('/users/30716689/', '苍老师首席女配音', '闺蜜怀孕中,抱怨老公回家就躲在客厅打游戏,经常闹别扭。一次偶然的机会,她遇到大师,大师说她家风水有问题,要改变房间格局。闺蜜听大师的安排,果然,老公回家就往卧室钻,不玩手机也不吵闹了。我好奇的问闺蜜,大师真那么灵验,你怎么改房间格局的?闺蜜笑笑,也没有什么,只是把客厅的路由器改在卧室窗台。', '988')
('/users/33065062/', '耶稣安拉宁有种乎', '初中时候,班里有个很漂亮女孩,属于班花那种,有次下课我往她脸上亲了一口就跑,其实我一点都不喜欢她,她男友是学校外面那种小混混,我就喜欢那种被追着打一个星期的感觉,死亡如风,常伴吾身。', '411')
('/users/28491276/', '不知取什么名903…', '组织淫才给我答案', '227', '//pic.qiushibaike.com/system/pictures/11966/119663321/medium/app119663321.jpg')
('/users/26635010/', '本少丶霸道', '这个OK么', '15', '//pic.qiushibaike.com/system/pictures/10590/105905488/medium/app105905488.jpg')
('/users/10144082/', '°小姐姐', '闺蜜看上了一支TF(汤姆福特)的口红,我们俩正在讨论,老公凑过来问:聊什么呢?我:口红,说了你也不懂。老公看到我手机上的图片激动的说:这个我知道我知道。TFboys,他们还卖口红啊。-_-||。。。。。', '1653')
('/users/5623502/', '"别扭丶!', '最近几天把衣柜翻了个底朝天都没找到我想穿的那件秋衣,问老公吧,逗逗他。“我那秋衣我怎么也找不到了,你是不是偷偷给谁了?”“你还找我要?还我给谁?你不定丢谁家了呢?”我擦,好想问候他祖宗十八代!', '4460')
('/users/30031169/', '空霖', '今天中午做了个终生难忘的梦梦见自己被关在监狱里 但我一直想不起做错了什么 梦里还记得进过两次监狱 后来有人说我在KTV喝醉了 听见有人唱歌说我 然后我就把他打了 吓得我醒了 还在想自己有没有进过监狱', '107')
('/users/31854592/', '流云徐徐', '陪4岁萝莉小侄女去超市买东西,小姑娘见到吃的东西就走不动路了,睁着大眼睛可怜兮兮地看着我让买零食。我就逗她:“点点,叔叔没钱,买不起。”随即大眼睛一阵暗淡,突然又亮起来!只见她跑到导购阿姨那边跟人聊天,五分钟以后欢快地带着阿姨过来。阿姨说:“小姑娘夸了你半天,想把你卖了换零食。”我:……。买买买,小吃货从小就惹不起!', '376')
爬取下来的图片

从上图可以看到我们已经把图片下载到本地磁盘了。

代码解析

本次代码新增了一个正则表达式,一个目录创建,一个从通过url地址下载的函数

  • picture = re.compile(r'<div class="thumb">.?src="(.?)"', re.S):
    该表达式的作用是匹配到图片的url地址
  • makedirs:该函数是创建目录,于我们在linux系统中执行mkdir -p path1/path2/path3的功能是一样的,它可以层级递归的去创建目录,不需要我们手动每一级每一级的去创建目录, 看到这里是不是比windows创建目录方便多了。
  • urlretrieve:该函数是下载一个网络对象到本地文件,该函数返回一个元组,(local_filename, headers),函数定义如下:
    urllib.request.urlretrieve(url, filename=None, reporthook=None,data=None)
    url就是我们要从网络中下载的文件地址,filename是下载后存放在本地的文件名
  • os.path.basename(pictures[0]):该函数的作用是返回文件名,什么意思呢,pictures[0]取到是//pic.qiushibaike.com/system/pictures/11966/119663395/medium/app119663395.jpg地址,通过这个函数处理后我们得到将是app119663395.jpg

note: 作为初学者,学习一种语言就是要不断的敲代码,只有通过敲代码才能发现问题,然后修正问题,最后才能把别人的东西变成自己的,不然别人的永远都是别人的,一定要实践,切记!切记!

欢迎关注我:「爱做饭的老谢」,老谢一直在努力...

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,172评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,346评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,788评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,299评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,409评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,467评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,476评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,262评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,699评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,994评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,167评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,499评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,149评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,387评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,028评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,055评论 2 352

推荐阅读更多精彩内容