中层:标签网页的获取单网页链接
一、实验说明
1.1. 环境登录
无需密码自动登录,系统用户名shiyanlou
1.2. 环境介绍
本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌面上的程序:
- Xfce 终端: Linux命令行终端,打开后会进入 shell 环境,可以使用Linux命令
- Firefox:浏览器,可以用在需要前端界面的课程里,只需要打开环境里写的HTML/JS页面即可
- GVim:非常好用的编辑器,最简单的用法可以参考课程Vim编辑器
1.3. 环境使用
使用GVim编辑器输入实验所需的代码及文件,使用终端运行所需命令进行操作。
实验报告可以在个人主页中查看,其中含有每次实验的截图及笔记,以及每次实验的有效学习时间(指的是在实验桌面内操作的时间,如果没有操作,系统会记录为发呆时间)。这些都是您学习的真实性证明。
实验楼虚拟机,自带了python2.X和python3.X版本,无需安装 该实验建议使用 python2.7 版本, 也就是默认版本
二、课程介绍
组图页面的下载,上一节已经完成了已经完成了,这节呢,需要做的蛮简单,但是任务有两个:
- 获取该标签的全部链接地址
- 获取每个链接页面的全部组图链接地址
观察下图
做个简答的思路分析:
- 首页链接就是meizi.html,不过后面2、3、4、5、6的链接,只是后缀,我们需要简单做个拼接,得到完整的链接脚本。另外,当前页面就是1,所以1的链接为thisclass,我们采用的是从标签首页进去,然后直接获取 >=2 的链接,利用标签首页地址,拼接得到标签的所有完整链接地址,这是第一步,得到所有标签完整链接路径。
- 每个链接里面,会有各组图套图的路径,我们又需要从每个路径里面全部读取出来,再看下图
其实就是在ul标签的多个li,拿到ul标签的代码就行
三、代码详解
先附上获取标签链接的代码,并给出详细解析
第一个代码块:
文件名:meizi_series_nextpage
import re
import urllib2
#这个呢,是获取组图套图的代码,是下一个需要显示的代码块
import meizi_series_getpage
#同样的,这里是加载链接防超时,和上一节一样
def loadurl(url):
try:
conn = urllib2.urlopen(url, timeout=5)
html = conn.read()
return html
except urllib2.URLError:
return ""
except Exception:
print("unkown exception in conn.read()")
return ""
#上述代码中,最后还有一个except Exception,用于处理URLErro类无法捕捉的其他异常。感谢实验楼用户@caitao。
#下面的这个path指的是保存本地的文件路径,我在第一小节已经讲过了,还记得么?跟着代码再将一次吧
def nextpage(url,path):
reNextLink = "<a.*?href='(.*?)'>.*?</a>"
#获取reNextPage里的标签的全部链接
reNextPage = '<div.*?id="wp_page_number.*?>.*?<ul>(.*?)</ul>'
#获取ul标签里面的内容,里面包含了所有我们需要的链接,找到wp_page_number就可以了
#下面目的是获取链接名,组合传入路径得到当前路径名,解释:匹配a到z字符,>=1个
searchPathTail = '.*/([a-z]+).*?.html'
#获取传入的链接尾巴
searchurltail = '.*/(.*?.html)'
#获取传入的链接头部
searchhead = '(.*)/.*?.html'
#分开头和尾,是因为在获取当前标签的所有页码,都不是完整的,而是尾部链接,需要用尾部和头部链接拼凑成完整的链接。头部链接,就是传入链接的头部,而且传入的是第一个完整链接,页面1里面又没有尾部链接,所有传入链接的尾部,也需要找出
pathTail = re.findall(searchPathTail,url,re.S)
urlTail = re.findall(searchurltail,url,re.S)
urlhead = re.findall(searchhead,url,re.S)
#从传入文件夹路径和从链接中分析出的文件名,得到当前文件夹路径,保存到path中
path = path + '/' +pathTail[0]
print path
#标签页面的存储列表nextpage
nextpageurl = []
html = ''
while True:
html = loadurl(url)
if html == '':
print 'load', url,'error'
continue
else:
break
nextPage = re.findall(reNextPage,html,re.S)
nextLink = re.findall(reNextLink,nextPage[0],re.S)
nextLink.append(urlTail[0])
#这一段是将标签页码的所有尾部链接保存到nextLink中,然后下面的for循环,将完整的url链接,存储到nextpageurl中
nextLink = sorted(list(set(nextLink)))
for i in nextLink:
nextpageurl.append(urlhead[0]+"/"+i)
#将url链接和对应的文件路径传入"获取标签第n页的所有组图链接"的模板中,引号标记的,就是下一个代码块
for i in nextpageurl:
print i
meizi_series_getpage.tag_series(i,path)
第二个代码块
#文件名:meizi_series_getpage
import re
import urllib2
import meizi_page_download
def loadurl(url):
#依旧的,防超时和循环加载
try:
conn = urllib2.urlopen(url,timeout=5)
html = conn.read()
return html
except urllib2.URLError:
return ''
except Exception:
print("unkown exception in conn.read()")
return ''
#这个函数,简单点就是根据套图链接和传入的路径,得到套图文件夹路径,再传给上一节的图片下载模板
def oneOfSeries(urllist,path):
searchname = '.*/(.*?).html'
current_path = ''
for url in urllist:
try:
name = re.findall(searchname,url,re.S)
current_path = path + '/' + name[0]
meizi_page_download.picurl(url,current_path)
except urllib2.URLError:
pass
#传入标签的第n页和文件夹路径,获取所有套图url链接,和分析出对应的文件夹路径,传给我们底层的图片下载模板(也就是上一节啦)
def tag_series(url,path):
#这里是直接匹配出套图的链接,直接,注意是直接,最好是将结果和源码对下结果,防止遗漏和多出
reSeriesList = '<div .*?class="pic".*?>.*?<a.*?href="(.*?)".*?target.*?>'
html = ''
while True:
html = loadurl(url)
if html == '':
print 'load', url,'error'
continue
else:
break
seriesList = re.findall(reSeriesList,html,re.S)
if len(seriesList) ==0:
pass
else:
oneOfSeries(seriesList,path)
实验楼环境运行截图,奉上:
四、总结
一共四步:
- 从传入的文件夹路径和标签链接,得到当前标签的文件夹路径
- 从传入的标签链接,得到所有的标签页的url链接
- 从传入的标签第n页的url链接,得到所有的套图url链接
- 从套图url链接和传入的文件夹路径,得到套图的文件夹路径
- 将套图文件夹路径和套图的url链接,传给图片下载的模板(上一节我们完成的那个代码文件)
本节到此结束了,下一节就是"高层:从顶层域获取所有的标签页",基础爬虫的最后一个...
Follow me, let's go...
Python3教程、项目网站--传送门