中层:标签网页的获取单网页链接,难度简单--wh03

中层:标签网页的获取单网页链接

一、实验说明

1.1. 环境登录

无需密码自动登录,系统用户名shiyanlou

1.2. 环境介绍

本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌面上的程序:

  1. Xfce 终端: Linux命令行终端,打开后会进入 shell 环境,可以使用Linux命令
  2. Firefox:浏览器,可以用在需要前端界面的课程里,只需要打开环境里写的HTML/JS页面即可
  3. GVim:非常好用的编辑器,最简单的用法可以参考课程Vim编辑器

1.3. 环境使用

使用GVim编辑器输入实验所需的代码及文件,使用终端运行所需命令进行操作。

实验报告可以在个人主页中查看,其中含有每次实验的截图及笔记,以及每次实验的有效学习时间(指的是在实验桌面内操作的时间,如果没有操作,系统会记录为发呆时间)。这些都是您学习的真实性证明。

实验楼虚拟机,自带了python2.X和python3.X版本,无需安装 该实验建议使用 python2.7 版本, 也就是默认版本

二、课程介绍

组图页面的下载,上一节已经完成了已经完成了,这节呢,需要做的蛮简单,但是任务有两个:

  • 获取该标签的全部链接地址
  • 获取每个链接页面的全部组图链接地址

观察下图

此处输入图片的描述
此处输入图片的描述

做个简答的思路分析:

  • 首页链接就是meizi.html,不过后面2、3、4、5、6的链接,只是后缀,我们需要简单做个拼接,得到完整的链接脚本。另外,当前页面就是1,所以1的链接为thisclass,我们采用的是从标签首页进去,然后直接获取 >=2 的链接,利用标签首页地址,拼接得到标签的所有完整链接地址,这是第一步,得到所有标签完整链接路径。
  • 每个链接里面,会有各组图套图的路径,我们又需要从每个路径里面全部读取出来,再看下图
组图链接地址
组图链接地址

其实就是在ul标签的多个li,拿到ul标签的代码就行

三、代码详解

先附上获取标签链接的代码,并给出详细解析

第一个代码块:

文件名:meizi_series_nextpage
import re
import urllib2
#这个呢,是获取组图套图的代码,是下一个需要显示的代码块
import meizi_series_getpage
#同样的,这里是加载链接防超时,和上一节一样
def loadurl(url):
    try:
        conn = urllib2.urlopen(url, timeout=5)
        html = conn.read()
        return html
    except urllib2.URLError:
        return ""
    except Exception:
        print("unkown exception in conn.read()")
        return ""

#上述代码中,最后还有一个except Exception,用于处理URLErro类无法捕捉的其他异常。感谢实验楼用户@caitao。

#下面的这个path指的是保存本地的文件路径,我在第一小节已经讲过了,还记得么?跟着代码再将一次吧
def nextpage(url,path):
    reNextLink = "<a.*?href='(.*?)'>.*?</a>"
    #获取reNextPage里的标签的全部链接
    reNextPage = '<div.*?id="wp_page_number.*?>.*?<ul>(.*?)</ul>'
    #获取ul标签里面的内容,里面包含了所有我们需要的链接,找到wp_page_number就可以了
    #下面目的是获取链接名,组合传入路径得到当前路径名,解释:匹配a到z字符,>=1个
    searchPathTail = '.*/([a-z]+).*?.html'
    #获取传入的链接尾巴
    searchurltail = '.*/(.*?.html)'
    #获取传入的链接头部
    searchhead = '(.*)/.*?.html'
    #分开头和尾,是因为在获取当前标签的所有页码,都不是完整的,而是尾部链接,需要用尾部和头部链接拼凑成完整的链接。头部链接,就是传入链接的头部,而且传入的是第一个完整链接,页面1里面又没有尾部链接,所有传入链接的尾部,也需要找出
    pathTail = re.findall(searchPathTail,url,re.S)
    urlTail = re.findall(searchurltail,url,re.S)
    urlhead = re.findall(searchhead,url,re.S)
    #从传入文件夹路径和从链接中分析出的文件名,得到当前文件夹路径,保存到path中
    path = path + '/' +pathTail[0]
    print path
    #标签页面的存储列表nextpage
    nextpageurl = []
    html = ''
    while True:
        html = loadurl(url)
        if html == '':
            print 'load', url,'error'
            continue
        else:
            break
    nextPage = re.findall(reNextPage,html,re.S)
    nextLink = re.findall(reNextLink,nextPage[0],re.S)
    nextLink.append(urlTail[0])
    #这一段是将标签页码的所有尾部链接保存到nextLink中,然后下面的for循环,将完整的url链接,存储到nextpageurl中
    nextLink = sorted(list(set(nextLink)))
    for i in nextLink:
        nextpageurl.append(urlhead[0]+"/"+i)
    #将url链接和对应的文件路径传入"获取标签第n页的所有组图链接"的模板中,引号标记的,就是下一个代码块
    for i in nextpageurl:
        print i
        meizi_series_getpage.tag_series(i,path)

第二个代码块

#文件名:meizi_series_getpage
import re
import urllib2
import meizi_page_download

def loadurl(url):
    #依旧的,防超时和循环加载
    try:
        conn = urllib2.urlopen(url,timeout=5)
        html = conn.read()
        return html
    except urllib2.URLError:
        return ''
    except Exception:
        print("unkown exception in conn.read()")
        return ''
        
#这个函数,简单点就是根据套图链接和传入的路径,得到套图文件夹路径,再传给上一节的图片下载模板
def oneOfSeries(urllist,path):
    searchname = '.*/(.*?).html'
    current_path = '' 
    for url in urllist:
        try:
            name = re.findall(searchname,url,re.S)
            current_path = path + '/' + name[0]
            meizi_page_download.picurl(url,current_path)
        except urllib2.URLError:
            pass

#传入标签的第n页和文件夹路径,获取所有套图url链接,和分析出对应的文件夹路径,传给我们底层的图片下载模板(也就是上一节啦)
def tag_series(url,path):
    #这里是直接匹配出套图的链接,直接,注意是直接,最好是将结果和源码对下结果,防止遗漏和多出
    reSeriesList = '<div .*?class="pic".*?>.*?<a.*?href="(.*?)".*?target.*?>'
    html = ''
    while True:
        html = loadurl(url)
        if html == '':
            print 'load', url,'error'
            continue
        else:
            break
    seriesList = re.findall(reSeriesList,html,re.S)
    if len(seriesList) ==0:
        pass
    else:
        oneOfSeries(seriesList,path)

实验楼环境运行截图,奉上:


实验楼运行截图(第三小节)
实验楼运行截图(第三小节)

四、总结

一共四步:

  • 从传入的文件夹路径和标签链接,得到当前标签的文件夹路径
  • 从传入的标签链接,得到所有的标签页的url链接
  • 从传入的标签第n页的url链接,得到所有的套图url链接
  • 从套图url链接和传入的文件夹路径,得到套图的文件夹路径
  • 将套图文件夹路径和套图的url链接,传给图片下载的模板(上一节我们完成的那个代码文件)
    本节到此结束了,下一节就是"高层:从顶层域获取所有的标签页",基础爬虫的最后一个...

Follow me, let's go...

Python3教程、项目网站--传送门

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容