pyspider 学习文档--新手上路

最近在研究学习一个好部署,好管理的python爬虫框架,pyspider貌似是一个不错的选择。我再这里整理了一下网上个各种资料,有兴趣的童鞋们接下来就跟我一起学习啦。

相对于 Scrapy 框架来说, pyspider 具有以下优点:
1.有 Web 界面用于开发爬虫,任务、项目管理,查看爬取结果
2.支持各种数据库(MySQL、MongoDB、SQLite 等)存储爬取结果;
3.可以方便设置任务优先级,重新爬取策略;
4.支持单机与分布式部署;
5.支持 PhantomJS 爬取动态网页。

学习目录:

step 1: 安装pyspider

首先当然是要安装pyspider啦,请参照这里pyspider的安装

step 2: pyspider 架构学习

pyspider架构图.png

如上图所示,pyspider各个组件之间通过消息队列建立连接,运行在各自所属的进程或者线程之中,并且是可替换的。
webui

  • web的可视化任务监控
  • web脚本编写,单步调试
  • 异常捕获、log捕获,print捕获等

Scheduler/调度器

  • 任务优先级
  • 周期定时任务
  • 流量控制
  • 基于时间周期或前链标签(如更新时间)的重抓取调度

Fetcher /抓取器

  • dataurl支持,用于假抓取模拟传递
  • method,header,cookie,proxy,etag,last_modified,timeout等等抓取调度控制
  • 可以通过适配类似phantomjs的webkit引擎支持渲染

Processor/处理器

  • 内置的pyquery,以jQuery解析页面
  • 在脚本中完全控制调度抓取的各项参数
  • 可以向后链传递信息
  • 异常捕获

特点:

1.各个组件间使用消息队列连接,除了scheduler是单点的,fetcher 和 processor 都是可以多实例分布式部署的。scheduler 负责整体的调度控制。
2.任务由 scheduler 发起调度,fetcher 抓取网页内容, processor执行预先编写的python脚本,输出结果或产生新的提链任务(发往 scheduler),形成闭环。
3.每个脚本可以灵活使用各种python库对页面进行解析,使用框架API控制下一步抓取动作,通过设置回调控制解析动作。
工作流:
1:每一个python脚本都会有一个on_start函数,当你在WebUI中点击Run按钮时,一个新的任务就会被递交给调度器,等待执行
2:Scheduler会分发这个task到相应的Fetcher中
3:fetcher会抓取初始化的url并生成一个request和response对象,并传递给Processor
4:Processor调用on_start函数并且传递一下新的url去爬取,但完成一个url的抓取工作时,processor会发送一个消息给Scheduler,告诉调度器这个任务完成。并且会发送一个新的task到scheduler中,同时会把爬取的结果发送到一个result_queue中
5:Scheduler接收到新的task,会判断这个任务是一个新的任务还是需要重新抓取的任务,新的任务会把他们加入到任务队列中,如果是重新需要抓取的任务,则需要看一下时间周期,满足要求的才会放到任务队列中去,并且按顺序分发
6:上面的过程会一直持续,直到程序死掉或者我们手动停止。

Pyspider控制台使用说明

pyspider控制台.png

队列统计:是为了方便查看爬虫状态,优化爬虫爬取速度新增的状态统计.每个组件之间的数字就是对应不同队列的排队数量.通常来是0或是个位数.如果达到了几十甚至一百说明下游组件出现了瓶颈或错误,需要分析处理.
新建项目:pyspider与scrapy最大的区别就在这,pyspider新建项目调试项目完全在web下进行,而scrapy是在命令行下开发并运行测试.
组名:项目新建后一般来说是不能修改项目名的,如果需要特殊标记可修改组名.直接在组名上点鼠标左键进行修改.注意:组名改为delete后如果状态为stop状态,24小时后项目会被系统删除.
运行状态:这一栏显示的是当前项目的运行状态.每个项目的运行状态都是单独设置的.直接在每个项目的运行状态上点鼠标左键进行修改.运行分为五个状态:TODO,STOP,CHECKING,DEBUG,RUNNING.各状态说明:TODO是新建项目后的默认状态,不会运行项目.STOP状态是停止状态,也不会运行. CHECHING是修改项目代码后自动变的状态.DEBUG是调试模式,遇到错误信息会停止继续运行,RUNNING是运行状态,遇到错误会自动尝试,如果还是错误会跳过错误的任务继续运行.
速度控制:很多朋友安装好用说爬的慢,多数情况是速度被限制了.这个功能就是速度设置项.rate是每秒爬取页面数,burst是并发数.如1/3是三个并发,每秒爬取一个页面.
简单统计:这个功能只是简单的做的运行状态统计,5m是五分钟内任务执行情况,1h是一小时内运行任务统计,1d是一天内运行统计,all是所有的任务统计.
运行:run按钮是项目初次运行需要点的按钮,这个功能会运行项目的on_start方法来生成入口任务.
任务列表:显示最新任务列表,方便查看状态,查看错误等
结果查看:查看项目爬取的结果.

step3: pyspider通用API学习

请移步:pyspider通用API学习

step4: css selecotor选择器,pyquery学习

请移步:css selecotor选择器,pyquery学习

step5: pyspider扩展学习

请移步:pyspider扩展学习

step6: 。。。

请移步:。。。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容