爬虫---scrapy框架

scrapy

scrapy是一个爬虫框架,是用python语言编写的,如果想更加深入的了解,可以尝试着看他的源码,非常出名,非常强悍,多进程、多线程、队列等,底层都有使用
我们只需要按照人家提供的接口去实现即可

安装: pip install scrapy

学习框架:

引擎、spiders、调度器、下载器、管道

工作原理:

上网原理.png

官方文档:

http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

简单使用:

(1)创建项目

scrapy startproject firstblood

(2)认识项目结构
firstblood
firstblood 项目文件存放地方
pycache 缓存文件
spiders 存放爬虫文件的地方
pycache 缓存文件
init.py 包的标记
lala.py 爬虫文件(核心代码)(×)
init.py 包的标记
items.py 定义数据结构的地方(×)
middlewares.py 了解(下载中间件)
pipelines.py 管道文件,处理数据(×)
settings.py 项目的配置文件(×)
scrapy.cfg 不用了解

(3)开启项目,生成爬虫文件

cd firstblood
scrapy genspider 爬虫名字 爬取域名
爬虫文件里面属性的含义
爬虫的名字
启动爬虫的时候需要使用

name = 'qiubai'

允许的域名,是一个列表,对要爬取的url进行限制,限制域名

妹子图网站,src和网站的域名不是同一个,如果不注意,向图片发送的请求就都过滤掉了

allowed_domains = ['www.qiushibaike.com', 'www.baidu.com']

起始url,是一个列表,一般只写一个

start_urls = ['http://www.qiushibaike.com/']

这是重写的函数,也是一个回调函数,parse函数处理起始url的响应
response就是过来的响应对象

def parse(self, response):

(4)将项目跑起来,认识response对象

cd firstblood/firstblood/spiders
scrapy crawl qiubai
【注】修改配置文件,robots协议,定制请求头
response.text 获取字符串格式内容
response.body 获取字节格式内容
response.url 获取请求url
response.headers 获取响应头部
response.status 获取响应状态码
response.xpath()

(5)抓取糗百内容

response.xpath() 和以前的xpath不太一样,最后要通过extract进行提取才可以
直接输出json格式 scrapy crawl qiubai -o qiubai.json
scrapy crawl qiubai -o qiubai.xml
scrapy crawl qiubai -o qiubai.csv

【注】你导出的时候有空行,网上搜一下即可解决
【注】乱码,你使用office打开,gbk,utf8,右键另存为,选字符集,在打开即可

scrapy shell

是什麽?scrapy的调试工具,通过xpath来提取数据的时候,如果直接写到代码中,在调试的时候不太方便,我们可以通过scrapy shell先进行调试,调试完之后,将xpath路径拷贝过去即可
依赖一个库:ipython
pip install ipython

ipython是一个更加智能的python交互环境

scrapy shell url

  • 如果进ipython环境失败,那就需要到工程目录下进行调试
  • 进来之后response即可使用
    response.text 字符串格式内容
    response.body 字节格式内容
    response.xpath()

谷歌浏览器自动生成xpath,右键,copy==》copy xpath
/html/body/div[3]/div[4]/div[1]/div/div[2]/ul/li[1]/div[1]/div/a/img
/html/body/div[3]/div[4]/div[1]/div/div[2]/ul/li[1]/div[1]/a
ret[0].extract() === ret.extract()[0] == ret.extract_first()
【注】如果xpath写错了,前两个会直接报错,extract_first会返回None

response.css(),
就是以前学习的select方法,里面写选择器
body > div.page > div.page-body.clearfix > div.main > div > div.b > ul > li:nth-child(1) > div.cont-list-head > div > a > img
selector对象:
scrapy里面自己封装的对象,这种对象提取的时候就得extract()

获取img标签的data-src属性,当然最后还得extract()
ret = response.css('.cont-item > .cont-list-head img::attr(data-src)')
获取文本内容,当然最后都的extract一下
ret = response.css('.cont-item > .cont-list-head > a::text')
item对象
这种对象的用法和字典的用法一模一样,而且这种对象可以快速的转化为字典
p = Person()
p['name'] = xxx
p['age'] = xxx
d = dict(p)

2、yield item和请求

yield scrapy.Request(url=url, callback=self.parse)

3、下载图片

http://699pic.com/people.html
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36

4、日志信息和等级

CRITICAL 严重错误
ERROR 一般错误
WARNING 警告
INFO 一般信息
DEBUG 调试信息 默认级别
发现bug需要3s钟,解决bug需要3个小时,debug却要一辈子
甲虫 debug

# 在配置文件中设置错误级别,只显示ERROR以上的错误
LOG_LEVEL = 'ERROR'
# 想看到所有的debug信息,但是又不想显示到屏幕中,可以设置写入到文件中
LOG_FILE = 'log.txt'

5、发送post请求

scrapy也可以发送post请求,启动就发送post请求怎么做?
将start_urls给注释掉
重写start_requests方法即可
yield scrapy.FormRequest(url=url, formdata=data, callback=self.parse)

6、请求传参

yield scrapy.Request(url=detail_url, callback=self.parse_detail, meta={'item': item})

1、crawlspider

是什麽?CrawlSpider, 类名。在scrapy里面,有好多爬虫类,最基本的是Spider类,基类,还有一个常用的一个爬虫类,就是CrawlSpider,该类继承自Spider类,所以功能要比Spider要多,多了一个很重要的功能,叫做链接提取的功能

链接提取器类,通过类创建对象,对象的方法就能提取链接

from scrapy.linkextractors import LinkExtractor
LinkExtractor(
allow=xxx, # 正则表达式
restrict_xpaths=xxx, # xpath路径,符合这个路径的所有a链接提取到
restrict_css=xxx, # 选择器,符合选择器的所有a链接提取到
)
在scrapy shell中演示规则提取
(1)正则提取
lk = LinkExtractor(allow=r'/8hr/page/\d+/')
lk.extract_links(response)
(2)xpath提取
如下两种方式都可以
lk = LinkExtractor(restrict_xpaths='//ul[@class="pagination"]/li/a')
lk = LinkExtractor(restrict_xpaths='//ul[@class="pagination"]/li')
(3)css提取
lk = LinkExtractor(restrict_css='.pagination > li > a')
lk = LinkExtractor(restrict_css='.pagination > li')
代码中使用
犯贱网
图形修改


2、存储到mysql、mongodb

导入一个读取配置文件的函数
from scrapy.utils.project import get_project_settings
通过这个函数,将配置文件全部读进来,读进来是一个字典
settings = get_project_settings()

custom_settings = {
    "ITEM_PIPELINES": {
        'movieproject.pipelines.MyMongoDbPipeline': 302,
    }
}

web方向 框架学习
爬虫方向 高于web 涉及数据抓取,过滤分析,数据可视化,性能要求,需求改变,立即修改满足需求,反爬 代理ip就可以搞定,反爬,课堂上的例子 案例
数据方向 高于前两个

3、redis配置

让其他的电脑能够链接你的redis,并且配置和修改值
修改两个地方
第55行 #bind 127.0.0.1 注释掉
第75行 protected-mode no yes修改为no
4、存储到redis、分布式部署
分布式?为了提高爬取的效率,让多台电脑一起爬取,比如一共100url,三台电脑一起爬取,一个电脑33个
scrapy写的工程,都不能实现分布式,没有这个功能
要想实现分布式,使用一套组件 scrapy-redis 不是官方的,安装就能使用\

pip install scrapy-redis
部署
windows redis服务端 安装redis服务器

客户端,运行代码的电脑
linux1
linux2
windows1
windows2

演示:
linux : redis服务端
我的windows:客户端1
你的linux:客户端2
你的windows:客户端3
xxxx
查看官方例子
三个样本文件
dmoz.py 普通的crawlspider模板
mycrawler_redis.py 如果你的爬虫文件继承自CrawlSpider,又想实现分布式,请参考这个模板
myspider_redis.py redisspider模板,如果你的爬虫继承自Spider,又想实现分布式,请参考这个模本

分布式模板:
redis-key : 就是以前的 start_urls 这个列表
init方法: 这个就是以前的 allowed_domains 这个列表
【注】init方法不能使用,要定义动态列表,还得用以前的写法

配置文件说明
见代码
启动工程
scrapy runspider xxx.py

lpush fenspider:start_urls http://699pic.com/people.html

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 225,565评论 6 525
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 96,696评论 3 406
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 172,935评论 0 370
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 61,327评论 1 303
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 70,338评论 6 401
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 53,760评论 1 316
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 42,085评论 3 431
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 41,091评论 0 280
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 47,656评论 1 327
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 39,657评论 3 348
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 41,767评论 1 355
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 37,360评论 5 351
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 43,088评论 3 341
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 33,493评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 34,654评论 1 278
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 50,374评论 3 383
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 46,841评论 2 367

推荐阅读更多精彩内容