qiubai.py
# -*- coding: utf-8 -*-
import scrapy
from fiveScrapy.items import FivescrapyItem
#创建出一个爬虫类,继承自scrapy的Spider爬虫(基础爬虫),下载器下载下来的数据都会传递到整个类中处理
class QiubaiSpider(scrapy.Spider):
# 爬虫的名字,我们在调用爬虫的时候要根据爬虫的name来寻找爬虫
name = 'qiubai' #没有name引擎调用不起来
#域名列表。允许访问的域名,在下载器下载数据的时候首先会考察当前下载的这个url是否在该域名列表的某个域名,如果不在会停止下载
allowed_domains = ['qiushibaike.com']
#下载器在被调度的时候,首先会让调度器从这里取url,然后比照域名列表是否有该域名,如果验证成功,就会下载(下载指请求),一般情况下这个列表只存放一条数据
start_urls = ['http://www.qiushibaike.com/']
#这个成员方法非常重要,它是一个回调方法,当下载器下载完数据以后就会回调该方法,并且把其下载下来的数据放至response这个参数中,response是响应对象。
def parse(self, response): #用于解析网页
print("____________________________________")#通过这个显示查找到以下打印内容
# print(response.text)
#自带Xpath和bs4的解析机制
#通过xpath
qiushi_list = response.xpath("//div[starts-with(@id, 'qiushi_tag_')]")
# print(qiushi_list)
#遍历解析出来的哪些糗事列表
items = []
for qiushi in qiushi_list:
# #创建模型工具
item = FivescrapyItem()
item["author"] = qiushi.xpath("./div[@class='author clearfix']//h2/text()").extract()[0]
# # print(item["author"])
item["author_img"] = qiushi.xpath("./div[@class='author clearfix']//img/@src").extract()[0]
item["content"] = qiushi.xpath(".//div[@class='content']/span/text()").extract()[0]
# # 由于图片不是每个人都有,需处理图片
imgs = qiushi.xpath(".//div[@class='thumb']/a/img/@src").extract()
if len(imgs) == 0:
item["img_url"] = ""
else:
item["img_url"] = imgs[0]
# # print(item)
items.append(item)
# ##这里需要返回一个可迭代对象,这个对象将会被传递到管道中
# #返回的这个值可以通过指令输出到本地的json、xml、csv等格式的文件中取。
# #还可以通过管道的相关组件返回到管道中进行处理(注:这里需要在settings.py文件中,打开我们管道组件)
return items
items.py
import scrapy
class FivescrapyItem(scrapy.Item):
#这个类主要是用于对我们爬取的内容进行模型化,它的本质是一个模型字典
author = scrapy.Field()
author_img = scrapy.Field()
content = scrapy.Field()
img_url = scrapy.Field()
pipeline.py
#这个类主要用于对爬虫返回的数据进行迭代
class FivescrapyPipeline(object):
# 这个方法是每一个迭代都会被调用,每次被调用都会把其迭代那个item取出来
def process_item(self, item, spider):
# print("ok")
print(item["author"])
return item
settings.py
#启动管道组件
ITEM_PIPELINES = {
#代表管道组件的位置,值代表其优先级,数字越小越优先
'fiveScrapy.pipelines.FivescrapyPipeline': 300,
}