登录注册写文章

使用scrapy-redis分布式爬虫去爬取指定信息

叩丁狼教育

使用scrapy-redis分布式爬虫去爬取指定信息

作者：黎智煊，叩丁狼教育高级讲师。原创文章，转载请注明出处。

目标:在智联招聘上面爬取指定职位信息并且保存到redis数据库当中.

工具:python3.6,scrpay,scrapy-redis,redis

首先配置好本地python环境,具体是python2或者python3都可以.
使用pip或者anaconda安装好scrapy和scrapy-redis模块.
本文就使用scrapy-redis提供在github上面的官方例子,(适合懒惰癌晚期),scrapy-redis的github地址:https://github.com/rmax/scrapy-redis
使用git下载好代码之后,我们就可以入手修改代码.
记得先开启redis数据库.

修改源码

找到items.py,然后增加以下代码:

test1
然后去修改本来叫dmoz.py的这个文件,改成你自己想要的名字,或者不改也可以,我这里改成zhilianZhaopin.py,然后也可以添加代码.

首先先获取你提交请求后的url了.

test2

test3

然后获取到的url地址,最后面的p显然就是页面数的意思,然后这个将作为爬虫开始页面.

start_urls="http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E5%B9%BF%E4%B8%9C&kw=java%E5%BC%80%E5%8F%91%E5%B7%A5%E7%A8%8B%E5%B8%88&sm=0&p=1"

然后就是分析想要提取的url地址的xpath格式.

test4

然后得到提取<每个职位详细页面的url地址>的xpath匹配值之后,我们就可以去分析每一个详细页需要提取相关信息项的xpath值

test5

然后大概就是这样的流程,我们最终的部分效果是这样的.

test6

test7

都写好之后,直接就在这个文件所在的文件夹,调用scrapy runspider zhilianZhaopin.py,

然后运行以后,会看到相应的提示.

test8

然后熟悉操作redis的童鞋就可以去redis查看保存到的数据咯.

ps:具体项目的源码可以到github上面获取,下载下来,启动好redis数据库,直接运行就可以爬取数据的了.

项目的github地址:https://github.com/headB/zhilianZhaopin

WechatIMG7.jpeg

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

开学小记
这个暑假跑去地铁设计单位实习算是给自己一个锻炼的机会，弹指挥间暑假结束又开学。在今天回到学校在同学们的打闹中突然发...
负零小子阅读 1,792评论 0赞 0
你也能写这样的图文免费下载你真正的了解吗？上海宇飞来星河科技有限公司
企业简介 Enterprise brief introduction 宇飞来（YU FLY）是光电科技、互联网产业...
颜绣阅读 2,720评论 0赞 1

不来也不去
1933年9月，在天津《大公报》第一版上，孟小冬连登了三天启事：“冬当时年岁幼稚，世故不熟，一切皆听介绍人主持。名...
舊夢失詞阅读 3,619评论 0赞 2
雨庭花
鱼有忆，月无心海棠落，清雨掩花几时休，青丝染霜华似梦非梦遇见他，像作了假依依流水，不舍芳瑕此去经年远...
阿琴姑娘阅读 4,373评论 20赞 94
2017-12-02
很小时候，我以为故乡小城是一座极大的城市。从城市一端到另一端，在想象中是一段极为漫长的跋涉。长大后，我发现世界也...
l茶l小乖阅读 1,301评论 0赞 0

友情链接更多精彩内容

8赞9赞

赞赏

手机看全文