最近跟着老师学习,写了几个爬虫。写爬虫不可能只爬取一个页面,往往涉及到分页爬取。本文对自己在写爬虫的过程中关于分页爬取做一次小小的总结。
一、静态加载
如糗事百科,美股吧。这种网页url一般都带有页码信息,翻页的时候url会发生变化,页面内容全部刷新,分页爬取比较容易实现。
- 方法一: 取得页码总数,根据url的结构来构造一个url列表,然后遍历列表中的url分别爬取信息即可。参考代码(来自Python爬虫—糗事百科@loading_miracle)如下:
#总页码
def totalUrl(self):
urls = [self.url+'page/{}/?s=4985075'.format(i) for i in range(1,36)]
for url in urls:
print u'正在获取:'+url.split('/')[-2]+u'页'
self.getInfo(url)
- 获取页码数
- HTML页面中直接提取(页面中有
最大页码数
/共22页
这些信息(如图图糗事百科、美股吧),或者提取``末页/
>>`的标签的href属性(如BT蚂蚁))
参考代码如下:
- HTML页面中直接提取(页面中有
page_data = soup.find(name='span', class_='pagernums').get('data-pager').split('|')
page_nums = math.ceil(int(page_data[1]) / int(page_data[2]))
2. 提取到返回信息的总数 / 每页显示的信息条数(如美股吧评论页)
参考代码如下:
# script脚本:{var num=40030; }var pinglun_num=105;var xgti="";if(typeof (count) != "undefined"){xgti="<span class=\"tc2\"><a href='list,meigu.html'>相关帖子<span class=\"tc1\">"+count+"</span>条</a></span>";}
# 正则表达式获取总的评论数
pattern = re.compile(r'var pinglun_num=(.*?);')
# 文章评论数
reply_count = int(re.search(pattern, resp.text).group(1))
page_num = math.ceil(reply_count / 30)
- 方法二:通过获取页面中
下一页
的href
属性构造一个url,然后递归爬取,直到没有下一页
为止。参考代码(来自Python作业20170522:素数+糗百+简书首页@dpkBat)如下:
# 实现分页爬取(递归)
next_page = soup.find(name='ul', class_='pagination').find_all(name='li')[-1]
# 递归结束条件:没有找到下一页按钮表示到了最后一页,结束
if next_page.find(name='span', class_='next'):
next_page_url = 'http://www.qiushibaike.com' + next_page.find(name='a').get('href')
parse_html(get_html(next_page_url))
二、异步加载
- 方法:通过Chrome浏览器的F12的XHR(或JS)检查发送的请求,根据请求的url找到url构造的规律构造一个url列表,遍历列表得到要爬取的信息。如中国天气网爬取一年的天气预报信息,参考代码(来自Python作业20170526:天气预报爬虫@dpkBat)如下:
# 根据年、月的信息生成url列表
def generate_url_list(start_date, end_date, city_id = 101300903):
weather_url_list = []
dates = []
for year in range(start_date.get('year'), end_date.get('year') + 1):
if year == end_date.get('year'):
for month in range(1, start_date.get('month') + 1):
date = {
'year': str(year),
'month': str(month).zfill(2)
}
dates.append(date)
else:
for month in range(start_date.get('month'), 12 + 1):
date = {
'year': str(year),
'month': str(month).zfill(2)
}
dates.append(date)
for date in dates:
weather_url_list.append(
base_url.format(
year=date.get('year'), date=date.get('year') + date.get('month'), city_id = city_id)
)
return weather_url_list