受大牛们的鼓励,继2个熬夜的晚上终于做完scrapy版的“七日热点”。宝宝好累,做到凌晨,电脑差一点被收走。 赶紧开始记录。
主要参考文章:
Scrapy 0.24 文档
Scrapy爬取"单页面"数据(一)
Scrapy爬取多层网页结构数据(二)
Scrapy抓取多层网页结构详解(三)
爬虫小分队二组Scrapy框架收录专题-20170423(二)
Scrapy 是专门用来爬取网站数据的应用框架。不能直接用pycharm来创建一个scrapy的project。需要现在shell中写入scrapy startproject 项目名称
。然后打开pycharm,就会生成类似于如下多个py文件组成项目。
项目名称/
scrapy.cfg
tutorial/
__init__.py
items.py
pipelines.py
settings.py
spiders/
__init__.py
...
具体每个py文件的功能可以查找相关资料。现在需要做的是在spiders目录下新建一个你的爬虫主的py文件。这就是你要写爬虫的主要地方。
代码如下组成
1、items.py
存储爬取数据。 其类型类似于词典。用于声明可用字段的简单语法。
from scrapy import Item,Field
class SevendayItem(Item):
# define the fields for your item here like:
# name = scrapy.Field()
user=Field() #作者
title=Field() #标题
read_qty=Field() #阅读量
commend_qty=Field() #评论数量
admire_qty=Field() #喜欢数量
reward=Field() #打赏
topic=Field() #被收入专题
2、settings.py
设置CSV文件存储位置和本机的user_agent
USER_AGENT='Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'
FEED_URI=u'sevenday.csv'
FEED_FORMAT='CSV'
3、main.py
启动爬虫
#-*- coding:utf-8 -*-
from scrapy import cmdline
cmdline.execute("scrapy crawl sevenday1".split())
4、sevenday.py
#-*- coding:utf-8 -*-
import sys
sys.path.append('..')
from scrapy.spiders import CrawlSpider
from scrapy.http import Request
from items import SevendayItem
from scrapy.selector import Selector
import sys
import re
import json
reload(sys)
sys.setdefaultencoding('utf-8')
class sevenday(CrawlSpider):
name='sevenday1'
start_urls=['http://www.jianshu.com/trending/weekly?utm_medium=index-banner-s&utm_source=desktop&page=1']
def parse(self, response):
selector=Selector(response)
datas=selector.xpath('//ul[@class="note-list"]/li')
for data in datas:
base_url = data.xpath('div/a/@href')
if base_url:
detail_url='http://www.jianshu.com'+data.xpath('div/a/@href').extract()[0]
print 'ddd',detail_url
yield Request(detail_url,callback=self.parse_item)
urls = ['http://www.jianshu.com/trending/weekly?utm_medium=index-banner-s&utm_source=desktop&page={}'.format(i) for i in range(2, 9)]
for newurl in urls:
yield Request(newurl, callback=self.parse)
def parse_item(self, response):
#items=[]
item=SevendayItem()
selector=Selector(response)
user=selector.xpath('//span[@class="name"]/a/text()').extract()[0]
title=selector.xpath('//div[@class="article"]/h1[@class="title"]/text()').extract()[0]
read_qty=re.findall('"views_count":(.*?),', response.text, re.S)[0]
comment_qty = re.findall('"comments_count":(.*?),', response.text, re.S)[0]
admire_qty=re.findall('"likes_count":(.*?),', response.text, re.S)[0]
id = re.findall('"id":(.*?),', response.text, re.S)[0]
reward_url = ['http://www.jianshu.com/notes/{}/rewards.json'.format(str(id))]
print reward_url[0]
item['user']=user
item['title']=title
item['read_qty']=read_qty
item['commend_qty']=comment_qty
item['admire_qty']=admire_qty
#items.append(item)
#yield Request(reward_url[0],meta={'id':id,'user':user,'title':title,'read_qty':read_qty,'comment_qty':comment_qty,'admire_qty':admire_qty},callback=self.parse_info)
yield Request(reward_url[0],meta={'id':id,'item':item},callback=self.parse_info)
def parse_info(self,response):
selector=Selector(response)
item1=response.meta['item']
item=SevendayItem()
item['user']=item1['user']
item['title'] = item1['title']
item['read_qty'] = item1['read_qty']
item['commend_qty'] = item1['commend_qty']
item['admire_qty'] = item1['admire_qty']
reward_detail = json.loads(response.text)
reward_qty = reward_detail['rewards_count']
print 'ssss',reward_qty
item['reward']=reward_qty
id=response.meta['id']
html_collection_url = 'http://www.jianshu.com/notes/%s/included_collections.jason' % id
yield Request(html_collection_url,meta={'item':item},callback=self.parse_collection)
def parse_collection(self,response):
item1=response.meta['item']
item=SevendayItem()
datas=[]
collection_detail=json.loads(response.text)
for one in collection_detail['collections']:
datas.append(one['title'])
data = ','.join(datas)
item['topic']=data
item['user'] = item1['user']
item['title'] = item1['title']
item['read_qty'] = item1['read_qty']
item['commend_qty'] = item1['commend_qty']
item['admire_qty'] = item1['admire_qty']
item['reward']=item1['reward']
yield item
重点分析sevenday.py部分知识点:
class sevenday(CrawlSpider):
name='sevenday1' #爬虫名字,
start_urls=['http://www.jianshu.com/trending/weekly?utm_medium=index-banner-s&utm_source=desktop&page=1']
def parse(self, response):
urls = ['http://www.jianshu.com/trending/weekly?utm_medium=index-banner-s&utm_source=desktop&page={}'.format(i) for i in range(2, 9)]
for newurl in urls:
yield Request(newurl, callback=self.parse)
name='sevenday1'
是爬虫名字,要和上边的类“sevenday"取不一样的名称,在main.py 会启动这个爬虫名称来运行爬虫
start_urls
是启动爬虫最初进入的url
def parse(self, response):
是一个用来解析这个start_urls的页面的函数。
其中response
就是请求返回的响应的参数。
它的作用就像相当于单线程爬虫中的:
url='http://*****'
html=requests.get(url).content
可以用parse函数来解析start_urls的HTML源码来提取数据。例如:
def parse(self, response):
selector=Selector(response)
datas=selector.xpath('//ul[@class="note-list"]/li')
类Selector是一个Scrapy的选择器。通过特定的XPath表达式来“选择” HTML文件中的某个部分。上边的例子通过xpath选取包含class="note-list"的标签ul下的li标签。通过网页分析,datas是一个列表。不确定的可以在这里打印datas看一下。
接上边,urls是一个新创建的url列表,通过for循环,游遍所有urls的地址.
yield Request(newurl, callback=self.parse)
yield是提交的意思。callback是一个回调函数。本句的意思是将新的newurl重新回调给parse函数自身。然后parse函数收到新的newurl函数,解析newurl的网页代码。
另外,Request还可以在请求下一页解析的时候,将本页的数据通过meta
传递给下一页。meta
是一个字典。里边通过key对应value来传递给下一个回调对象。
方法如下:
yield Request(newurl, meta={'key1':'value1','key2':'value2'},callback=self.parse_info)
def parse_info(self,response) #这里已经解析了newurl的网页代码,可以获取新的网页数据
item1=SevendayItem() #假定items.py的item名称是SevendayItem,将它实例化给item1,注意item1是一个字典。
item1['key1']=response.meta['key1'] #response中meta中的key1的value赋予item['key1']
item1['key2']=response.meta['key2'] #response中meta中的key2的value赋予item['key2']
.....
selector=Selector(response) ##这里已经解析了newurl的网页代码
value=selector.xpath('//../..').extract()[0] #通过xpath获取newurl网页的相对应的数据,注意获取的数据需要在后边加上`.extract`,要不提取不出来
item1['key3']=value #value赋予 item1['key3']
yield item1 提交item1
yield item1
提交最终的数据给items.py,如果还有数据在下一级网页,可以创建新的url,然后将item1的值赋予meta
,继续请求新的url回调下一个parse_**
yield Request(新的url,meta={},callback=self.parse_**)
def parse_**(self,response)
“7日热点”遇到BUG的解决处理
由于打赏数据是异步加载,需要在界面中用正则表达式提取id,然后重新构造新的reward_rul,由于是json网页,所以需要用方法json.load
解析网页,取出我们要rewards_count
以上2个图可以看到reward_url是在Request URL中,加载后的数据是在下图中的rewards_count:8
我刚开始做的时候和单线程爬虫一样,构造如下的reward_url:
rewards_url = ['http://www.jianshu.com/notes/{}/rewards.count=20'.format(str(id))][0]
然后将它提交,回调给下一个parse_info函数。
我在解析parse_info的时候,提取不出reward_count,生成的CSV文件是空的。于是打断点进行调试:运行debug时候,系统提示如下:
中间有个DEBUG Forbidden by robots.txt ,然后去网上查找资料,有人说关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False即可解决。
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
然后再调试,还是有问题,如下:
于是 想起来可能是因为这个reward_url网页出错,但是里边的json数据还是有的,尝试改一下reward_url地址中?count=20改为.json如下:
reward_url = ['http://www.jianshu.com/notes/{}/rewards.json'.format(str(id))]
运行成功!
专题也是异步加载,所以方法和打赏数据处理一样。