1.1 基础知识
Scrapy爬虫框架：是高效的爬虫框架，不支持分布式，适合爬取单个网站。

Scrapy爬虫框架

Scrapy Engine（引擎）：Scrapy框架的核心部分。负责在Spider和ItemPipeline、Downloader、Scheduler中间通信、传递数据等。
Spider（爬虫）：发送需要爬取的链接给引擎，最后引擎把其他模块请求回来的数据再发送给爬虫，爬虫就去解析想要的数据。这个部分是我们开发者自己写的，因为要爬取哪些链接，页面中的哪些数据是我们需要的，都是由程序员自己决定。
Scheduler（调度器）：负责接收引擎发送过来的请求，并按照一定的方式进行排列和整理，负责调度请求的顺序等。
Downloader（下载器）：负责接收引擎传过来的下载请求，然后去网络上下载对应的数据再交还给引擎。
Item Pipeline（管道）：负责将Spider（爬虫）传递过来的数据进行保存。具体保存在哪里，应该看开发者自己的需求。
Downloader Middlewares（下载中间件）：可以扩展下载器和引擎之间通信功能的中间件。
Spider Middlewares（Spider中间件）：可以扩展引擎和爬虫之间通信功能的中间件。
　　优点：scrapy是异步的，采取可读性更强的xpath代替正则，有强大的统计和log系统，能同时在不同的url上爬行，而且支持shell方式，方便独立调试。写middleware,方便写一些统一的过滤器，通过管道的方式存入数据库。
　　缺点：基于python的爬虫框架，扩展性比较差。对于固定单个网站的爬取开发，有优势，但是对于多网站爬取100个网站，并发及分布式处理方面，不够灵活，不便调整与括展；基于twisted框架，运行中的exception是不会干掉reactor，并且异步框架出错后是不会停掉其他任务的，数据出错后难以察觉。
Scrapy应用：爬虫开发、数据挖掘、数据监测、自动化测试等。
分布式爬虫：能同时下载多个网页, 同时分析多个网页, 这样就有种事倍功半的效用，可比单线程爬虫快了3.5倍。

分布式爬虫图解

阻塞：程序在运行的时候，自身无法继续干别的事情，则称该程序在该操作上是阻塞的。
常见的阻塞形式有：网络 I/O 阻塞、磁盘 I/O 阻塞、用户输入阻塞等。阻塞是无处不在的，包括 CPU 切换上下文时，所有的进程都无法真正干事情，它们也会被阻塞。如果是多核 CPU 则正在执行上下文切换操作的核不可被利用。
非阻塞：程序在等待某操作过程中，自身不被阻塞，可以继续运行干别的事情，则称该程序在该操作上是非阻塞的。
非阻塞形式仅当程序封装的级别可以囊括独立的子程序单元时，它才可能存在非阻塞状态。
同步：不同程序单元为了完成某个任务，在执行过程中需靠某种通信方式以协调一致，称这些程序单元是同步执行的。
例如购物系统中更新商品库存，需要用“行锁”作为通信信号，让不同的更新请求强制排队顺序执行，那更新库存的操作是同步的。
异步：异步是为完成某个任务，不同程序单元之间过程中无需通信协调，也能完成任务的方式，不相关的程序单元之间可以是异步的。
例如，爬虫下载网页。调度程序调用下载程序后，即可调度其他任务，而无需与该下载任务保持通信以协调行为。不同网页的下载、保存等操作都是无关的，也无需相互通知协调。这些异步操作的完成时刻并不确定。
多进程：多进程就是利用 CPU 的多核优势，在同一时间并行地执行多个任务，可以大大提高执行效率。

1.2 安装需要的库
打开anaconda prompt输入
conda install scrapy
完成scrapy库的安装

1.3 自动化生成scrapy爬虫文件
1.3.1 创建模板
打开anaconda prompt输入
cd..
得到(base) C:\>再输入
F:
得到F:\>再输入
cd F:\untitled3
即可切换到工程文件地址，之后输入
scrapy startproject [项目名称]
之后输入[项目名称]进入到项目根目录，方便新建爬虫文件
### 目录结构介绍：
*以下介绍下主要文件的作用：

items.py：用来存放爬虫爬取下来数据的模型。
middlewares.py：用来存放各种中间件的文件。
pipelines.py：用于将items模型存储到本地磁盘中。
settings.py：本爬虫的一些配置信息（例如请求头，多久发送一次请求，ip代理池等）。
scrapy.cfg：项目的配置文件。
spiders包：以后所有的爬虫，都是存放到这个里面。*
1.3.2 创建模板
之后使用命令创造一个爬虫：
scrapy gensipder XXX "XXX.com"
创建了一个名字叫做XXX的爬虫，并且能爬取的网页只会限制在XXX.com这个域名下。注意项目名称不要和爬虫名重复。

1.4 scrapy爬虫解析
1.爬虫代码解析：

import scrapy

class QsbkSpider(scrapy.Spider):
    name = 'XXX'
    allowed_domains = ['XXX.com']
    start_urls = ['http://XXX.com/']

    def parse(self, response):
        pass

名称：这个爬虫的名字，名字必须是唯一的。
allow_domains：允许的域名。爬虫只会爬取这个域名下的网页，其他不是这个域名下的网页会被自动忽略。
start_urls：爬虫从这个变量中的url开始。
parse：引擎会把下载器下载回来的数据放在给爬虫解析，爬虫再把数据传给这个parse方法。这个是个固定的写法。这个方法的作用有两个，第一个是提取想要的数据。二个是生成下一个请求的url。*

2.修改settings.py代码：
在做一个爬虫之前，一定要记得修改setttings.py中的设置。两个地方是强烈建议设置的。
ROBOTSTXT_OBEY设置为False。否则为True。即遵守机器协议，那么在爬虫的时候，scrapy首先去找robots.txt文件，如果没有找到。则直接停止爬取。
DEFAULT_REQUEST_HEADERS添加User-Agent。这个也是告诉服务器，我这个请求是一个正常的请求，不是一个爬虫。

3.完成的爬虫代码：
爬虫部分代码：

 import scrapy
 from abcspider.items import QsbkItem

 class QsbkSpider(scrapy.Spider):
     name = 'qsbk'
     allowed_domains = ['qiushibaike.com']
     start_urls = ['https://www.qiushibaike.com/text/']

     def parse(self, response):
         outerbox = response.xpath("//div[@id='content-left']/div")
         items = []
         for box in outerbox:
             author = box.xpath(".//div[contains(@class,'author')]//h2/text()").extract_first().strip()
             content = box.xpath(".//div[@class='content']/span/text()").extract_first().strip()
             item = QsbkItem()
             item["author"] = author
             item["content"] = content
             items.append(item)
         return items

items.py部分代码：

 import scrapy
 class QsbkItem(scrapy.Item):
     author = scrapy.Field()
     content = scrapy.Field()

管道部分代码：

 import json

 class AbcspiderPipeline(object):
     def __init__(self):

         self.items = []

     def process_item(self, item, spider):
         self.items.append(dict(item))
         print("="*40)
         return item

     def close_spider(self,spider):
         with open('qsbk.json','w',encoding='utf-8') as fp:
             json.dump(self.items,fp,ensure_ascii=False)

4.运行scrapy项目：
运行scrapy项目。需要在终端，进入项目所在的路径，然后scrapy crawl [爬虫名字]即可运行指定的爬虫。如果不想每次都在命令行中运行，那么可以把这个命令写在一个文件中。以后就在pycharm中执行现在该新创建一个文件叫做start.py，然后在这个文件中填入以下代码：

from scrapy import cmdline
cmdline.execute("scrapy crawl qsbk".split())

1.1 数据储存

方法1：使用python自带json模块存储。缺点：比较乱。

import json

class QsbkPipeline(object):
    def __init__(self):
        self.fp = open("duanzi.json",'w',encoding='utf-8')
    def open_spider(self,spider):
        print('爬虫开始了……')
    def process_item(self, item, spider):
        item_json = json.dumps(item,ensure_ascii=False)
        self.fp.write(item_json+'\n')
        return item
    def close_spider(self,spider):
        self.fp.close()
        print('爬虫结束了……')
        pass

方法2：使用JsonLinesItemExporter类。以二进制的方式打开，以byte数据的形式写入。原理是，先将所有的item存储到这个JsonItemExporter类型当中，finish_exportting的时候再统一写到文件中。缺点：消耗内存。

from scrapy.exporters import JsonItemExporter
class QsbkPipeline(object):
    def __init__(self):
        self.fp = open("duanzi.json",'wb')#以二进制wb的方式打开。
        self.exporter = JsonItemExporter(self.fp,ensure_ascii=False,encoding='utf-8')#关闭ascii码
    def open_spider(self,spider):
        print('爬虫开始了……')
    def process_item(self, item, spider):
        self.exporter.export_item(item)#先不转化成字典，导入item。
        return item
    def close_spider(self,spider):
        self.exporter.finish_exportting()
        self.fp.close()
        print('爬虫结束了……')
        pass

方法3：按行储存。缺点：不适合小数据。

from scrapy.exporters import JsonLinesItemExporter
class QsbkPipeline(object):
    def __init__(self):
        self.fp = open("duanzi.json",'wb')#以二进制wb的方式打开。
        self.exporter = JsonLinesItemExporter(self.fp,ensure_ascii=False,encoding='utf-8')#关闭ascii码
    def open_spider(self,spider):
        print('爬虫开始了……')
    def process_item(self, item, spider):
        self.exporter.export_item(item)#先不转化成字典，导入item。
        return item
    def close_spider(self,spider):
        #self.exporter.finish_exportting()
        self.fp.close()
        print('爬虫结束了……')
        pass

参考来源：
链接：https://juejin.im/post/5b430456e51d45198a2ea433
链接：http://www.jinglingdaili.cn/News/getInfo/id/272.html

---------------------------------------------------------------------------------------------------

anaconda的scrapy爬虫笔记【1】

anaconda的scrapy爬虫笔记【1】

1.1 数据储存

方法1：使用python自带json模块存储。缺点：比较乱。

方法2：使用JsonLinesItemExporter类。以二进制的方式打开，以byte数据的形式写入。原理是，先将所有的item存储到这个JsonItemExporter类型当中，finish_exportting的时候再统一写到文件中。缺点：消耗内存。

方法3：按行储存。缺点：不适合小数据。

推荐阅读更多精彩内容