最近python是越来越火了,自己也是想体验一把,所以就抽时间把python基础语法什么的都了解了下,也把具体的代码试了试。看完了想着总要应用下吧,否则总感觉没劲儿,就跟没学似得,毕竟实践是最好的老师嘛。那么实现个什么功能呢?然后就看到了博客,要不就把所有博客的标题以及阅读次数统计下吧,也算是网络爬虫吧。
当然代码是可以复用的,之前的爬取代码我们直接拿过来用就好了,本质上是只需要将我们爬取的数据展示在折线图上面就好了,python中画图常用的就是matplotlib了,当然这个属于第三方模块,需要安装,如果不安装直接导包是会失败的,当然安装就很简单了,这里就不多介绍了。下面是我们代码的完整实例。
#!usr/bin/python
# -*- coding: utf-8 -*-
'''
使用python爬取csdn个人博客的访问量,并用折线图展示出来时间和阅读数目的关系
'''
import urllib2
import re
from bs4 import BeautifulSoup;
#当前的博客列表页号
from http import ResponseUtils
# 导入画图需要的库
from pylab import *
page_num = 1
notLast = 1;
# account = str(raw_input('输入csdn的登录账号:'))
account = 'submit66'
allTitleList = [];
allViewList = [];
while notLast:
#首页地址
baseUrl = 'http://blog.csdn.net/'+account
#连接页号,组成爬取的页面网址
myUrl = baseUrl+'/article/list/'+str(page_num)
#伪装成浏览器访问,直接访问的话csdn会拒绝
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = {'User-Agent': user_agent}
#构造请求
req = urllib2.Request(myUrl, headers=headers);
#访问页面
myResponse = urllib2.urlopen(req)
myPage = ResponseUtils.OutResponse().getResponse(myResponse);
#在页面中查找是否存在‘尾页’这一个标签来判断是否为最后一页,如果没有则代表是最后一页了
pattern = re.compile('尾页</a>');
notLast = pattern.findall(myPage, re.S);
soup = BeautifulSoup(myPage, 'lxml');
# 使用beautifulsoup来解析html
titleList = soup.find_all('span', class_='link_postdate');
# 使用beautifulsoup来解析html
viewList = soup.find_all('span', class_='link_view');
allTitleList.extend(titleList);
allViewList.extend(viewList);
#页号加1
page_num = page_num + 1;
# ----------------循环结束渠道数据,下面是为了绘图准备数据,并且对数据做加工-----------------
# 将数据结果顺序反转,因为之前是倒序排列,我们需要的时间是从前到后的
allTitleList.reverse();
allViewList.reverse();
# 声明两个数组,存储的即为x、y轴的值
xValues = [];
yValues = [];
# 通过循环给存储x和y轴坐标值的list赋值
for n in range(len(allViewList)):
xvalue = allViewList[n].contents[1].encode('utf-8'); # 取出阅读数量数据
yvalue = allTitleList[n].get_text().encode('utf-8'); # 取出阅读日期数据
yValues.append(xvalue[1:len(xvalue)-1]) # 因为去除的阅读数是带()的,所以我们需要截取,对于字符串的截取就相当于截取数组
xValues.append(yvalue) # 将阅读数量放在list中
# 打印输出我们的数据
print '阅读数量:%s 日期:%s' % (yValues[n], xValues[n]);
# --------------下面是开始绘图部分--------------
# 这行代码是设置中文字体可以展示,否则将会报错
mpl.rcParams['font.sans-serif'] = ['SimHei']
x = range(len(xValues))
plt.plot(x, yValues, marker='o', mec='r', mfc='w', label=u'x时间和y阅读数关系折线图')
plt.legend() # 让图例生效
# 可以看到x和y 设置的方式是不同的,因为x轴可能只是一个名称,一个分类,而不是一个具体的数值,所以通过这种方式来做了,而对于y则是要具体展示的数值
plt.xticks(x, xValues, rotation=45) # 这里的rotation,当名称展示时候,一个倾斜的角度,当文案很长时候特别好用
plt.margins(0) # 这个不设置的话,折线的开始和结束出会有间距
plt.subplots_adjust(bottom=0.27) # 设置折线图和底部区域的距离
plt.xlabel(u"time(s)阅读日期") #X轴标签
plt.ylabel(u"阅读数量(次)") #Y轴标签
plt.title(u"阅读数量趋势图") #标题
# 展示图表对话框
plt.show()
其实,上面的代码写的还是蛮清楚的,相比之前的代码,就是需要导入pylab模块,里面自然是包含了matplotlib的了,之前代码还是爬取的,一变的是之前我们抓取的是阅读数量和博客title,现在是阅读数量和每篇博客创建时间,二是将阅读数量和阅读日期分别放在了list中方便下面使用。然后第二部分就是将数据做整合,即为绘图准备x和y轴的值,两者均放在一个list里面,两个list的数量是一致的,否则是会报错的。第三部分则是绘图部分,首先是设置了绘图可以正确展示中文,其次是将x和y轴的数据给了绘图实例,然后让绘图实例生效,因为我们的x轴只是一个名称展示,这里即为日期展示,所以不能像y轴那样子直接把值塞进去,所以下面调用了xticks方法进行了特殊处理,下面又设置了x和y轴标签,即x和y轴分别代表什么了。最后就是我们的图表的show(秀)啦。让我们看看最终效果图吧:嗯,看起来貌似还不错,不过最近的阅读数量有点低呀,尴尬啦。有人会问上面的xticks方法的rotation是干嘛的,就是让我们的x轴数值逆时针旋转45度呀,你看我们的x轴的每个数值都那么长,如果不旋转肯定覆盖了呀,还有subplots_adjust这个方法是设置绘图区域和上下左右之间的距离的,特别是底部的,如果不设置的话,那么长的文案是会被下面的菜单栏覆盖的哦,然后我们再说说plot这个方法的几个参数的意思,前两个就是x和y轴的数据了,第三个就是设置上图的红圈即为标记点了,第四个参数是设置标记点的颜色,上面r代表红色,你换成g就是绿色了,如果不设置的话,默认是蓝色。第五个参数就是设置标记点是否是实心,如果mfc不设置的话就是实心的,最后一个参数就是折线图的实例和说明了。