爬虫---scrapy框架

scrapy

scrapy是一个爬虫框架，是用python语言编写的，如果想更加深入的了解，可以尝试着看他的源码，非常出名，非常强悍，多进程、多线程、队列等，底层都有使用
我们只需要按照人家提供的接口去实现即可

安装： pip install scrapy

学习框架：

引擎、spiders、调度器、下载器、管道

工作原理：

上网原理.png

官方文档：

http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

简单使用：

（1）创建项目

scrapy startproject firstblood

（2）认识项目结构
firstblood
firstblood 项目文件存放地方
pycache 缓存文件
spiders 存放爬虫文件的地方
pycache 缓存文件
init.py 包的标记
lala.py 爬虫文件（核心代码）（×）
init.py 包的标记
items.py 定义数据结构的地方（×）
middlewares.py 了解（下载中间件）
pipelines.py 管道文件，处理数据（×）
settings.py 项目的配置文件（×）
scrapy.cfg 不用了解

（3）开启项目，生成爬虫文件

cd firstblood
scrapy genspider 爬虫名字爬取域名
爬虫文件里面属性的含义
爬虫的名字
启动爬虫的时候需要使用

name = 'qiubai'

允许的域名，是一个列表，对要爬取的url进行限制，限制域名

妹子图网站，src和网站的域名不是同一个，如果不注意，向图片发送的请求就都过滤掉了

allowed_domains = ['www.qiushibaike.com', 'www.baidu.com']

起始url，是一个列表，一般只写一个

start_urls = ['http://www.qiushibaike.com/']

这是重写的函数，也是一个回调函数，parse函数处理起始url的响应
response就是过来的响应对象

def parse(self, response):

（4）将项目跑起来，认识response对象

cd firstblood/firstblood/spiders
scrapy crawl qiubai
【注】修改配置文件，robots协议，定制请求头
response.text 获取字符串格式内容
response.body 获取字节格式内容
response.url 获取请求url
response.headers 获取响应头部
response.status 获取响应状态码
response.xpath()

（5）抓取糗百内容

response.xpath() 和以前的xpath不太一样，最后要通过extract进行提取才可以
直接输出json格式 scrapy crawl qiubai -o qiubai.json
scrapy crawl qiubai -o qiubai.xml
scrapy crawl qiubai -o qiubai.csv

【注】你导出的时候有空行，网上搜一下即可解决
【注】乱码，你使用office打开，gbk，utf8，右键另存为，选字符集，在打开即可

scrapy shell

是什麽？scrapy的调试工具，通过xpath来提取数据的时候，如果直接写到代码中，在调试的时候不太方便，我们可以通过scrapy shell先进行调试，调试完之后，将xpath路径拷贝过去即可
依赖一个库：ipython
pip install ipython

ipython是一个更加智能的python交互环境

scrapy shell url

如果进ipython环境失败，那就需要到工程目录下进行调试
进来之后response即可使用
response.text 字符串格式内容
response.body 字节格式内容
response.xpath()

谷歌浏览器自动生成xpath，右键，copy==》copy xpath
/html/body/div[3]/div[4]/div[1]/div/div[2]/ul/li[1]/div[1]/div/a/img
/html/body/div[3]/div[4]/div[1]/div/div[2]/ul/li[1]/div[1]/a
ret[0].extract() === ret.extract()[0] == ret.extract_first()
【注】如果xpath写错了，前两个会直接报错，extract_first会返回None

response.css(),
就是以前学习的select方法，里面写选择器
body > div.page > div.page-body.clearfix > div.main > div > div.b > ul > li:nth-child(1) > div.cont-list-head > div > a > img
selector对象：
scrapy里面自己封装的对象，这种对象提取的时候就得extract()

获取img标签的data-src属性，当然最后还得extract()
ret = response.css('.cont-item > .cont-list-head img::attr(data-src)')
获取文本内容，当然最后都的extract一下
ret = response.css('.cont-item > .cont-list-head > a::text')
item对象
这种对象的用法和字典的用法一模一样，而且这种对象可以快速的转化为字典
p = Person()
p['name'] = xxx
p['age'] = xxx
d = dict(p)

2、yield item和请求

yield scrapy.Request(url=url, callback=self.parse)

3、下载图片

http://699pic.com/people.html
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36

4、日志信息和等级

CRITICAL 严重错误
ERROR 一般错误
WARNING 警告
INFO 一般信息
DEBUG 调试信息默认级别
发现bug需要3s钟，解决bug需要3个小时，debug却要一辈子
甲虫 debug

# 在配置文件中设置错误级别，只显示ERROR以上的错误
LOG_LEVEL = 'ERROR'
# 想看到所有的debug信息，但是又不想显示到屏幕中，可以设置写入到文件中
LOG_FILE = 'log.txt'

5、发送post请求

scrapy也可以发送post请求，启动就发送post请求怎么做？
将start_urls给注释掉
重写start_requests方法即可
yield scrapy.FormRequest(url=url, formdata=data, callback=self.parse)

6、请求传参

yield scrapy.Request(url=detail_url, callback=self.parse_detail, meta={'item': item})

1、crawlspider

是什麽？CrawlSpider, 类名。在scrapy里面，有好多爬虫类，最基本的是Spider类，基类，还有一个常用的一个爬虫类，就是CrawlSpider，该类继承自Spider类，所以功能要比Spider要多，多了一个很重要的功能，叫做链接提取的功能

链接提取器类，通过类创建对象，对象的方法就能提取链接

from scrapy.linkextractors import LinkExtractor
LinkExtractor(
allow=xxx, # 正则表达式
restrict_xpaths=xxx, # xpath路径，符合这个路径的所有a链接提取到
restrict_css=xxx, # 选择器，符合选择器的所有a链接提取到
)
在scrapy shell中演示规则提取
（1）正则提取
lk = LinkExtractor(allow=r'/8hr/page/\d+/')
lk.extract_links(response)
（2）xpath提取
如下两种方式都可以
lk = LinkExtractor(restrict_xpaths='//ul[@class="pagination"]/li/a')
lk = LinkExtractor(restrict_xpaths='//ul[@class="pagination"]/li')
（3）css提取
lk = LinkExtractor(restrict_css='.pagination > li > a')
lk = LinkExtractor(restrict_css='.pagination > li')
代码中使用
犯贱网
图形修改

2、存储到mysql、mongodb

导入一个读取配置文件的函数
from scrapy.utils.project import get_project_settings
通过这个函数，将配置文件全部读进来，读进来是一个字典
settings = get_project_settings()

custom_settings = {
    "ITEM_PIPELINES": {
        'movieproject.pipelines.MyMongoDbPipeline': 302,
    }
}

web方向框架学习
爬虫方向高于web 涉及数据抓取，过滤分析，数据可视化，性能要求，需求改变，立即修改满足需求，反爬代理ip就可以搞定，反爬，课堂上的例子案例
数据方向高于前两个

3、redis配置

让其他的电脑能够链接你的redis，并且配置和修改值
修改两个地方
第55行 #bind 127.0.0.1 注释掉
第75行 protected-mode no yes修改为no
4、存储到redis、分布式部署
分布式？为了提高爬取的效率，让多台电脑一起爬取，比如一共100url，三台电脑一起爬取，一个电脑33个
scrapy写的工程，都不能实现分布式，没有这个功能
要想实现分布式，使用一套组件 scrapy-redis 不是官方的，安装就能使用\

pip install scrapy-redis
部署
windows redis服务端安装redis服务器

客户端，运行代码的电脑
linux1
linux2
windows1
windows2

演示：
linux ： redis服务端
我的windows：客户端1
你的linux：客户端2
你的windows：客户端3
xxxx
查看官方例子
三个样本文件
dmoz.py 普通的crawlspider模板
mycrawler_redis.py 如果你的爬虫文件继承自CrawlSpider，又想实现分布式，请参考这个模板
myspider_redis.py redisspider模板，如果你的爬虫继承自Spider，又想实现分布式，请参考这个模本

分布式模板：
redis-key : 就是以前的 start_urls 这个列表
init方法：这个就是以前的 allowed_domains 这个列表
【注】init方法不能使用，要定义动态列表，还得用以前的写法

配置文件说明
见代码
启动工程
scrapy runspider xxx.py

lpush fenspider:start_urls http://699pic.com/people.html

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 225,565评论 6赞 525
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 96,696评论 3赞 406
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 172,935评论 0赞 370
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 61,327评论 1赞 303
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 70,338评论 6赞 401
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 53,760评论 1赞 316
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 42,085评论 3赞 431
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 41,091评论 0赞 280
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 47,656评论 1赞 327
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 39,657评论 3赞 348
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 41,767评论 1赞 355
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 37,360评论 5赞 351
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 43,088评论 3赞 341
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 33,493评论 0赞 25
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 34,654评论 1赞 278
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 50,374评论 3赞 383
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 46,841评论 2赞 367