登录注册写文章

爬虫设计

爬虫设计

[TOC]

目标

主流网站招聘信息爬取
爬取并解析，归类，去重，存储招聘信息
企业口碑分析
获取企业的评价，进而通过自然语言处理，分析评论的情感
满意度监控
待定，暂时不做，初步想法是，爬取微博或者主流论坛，根据关键词，抓取需要的信息进行二次分析
数据展示
flask或者别人做

项目概要设计

写招聘网站的爬虫，考虑三步走：

首先，把架子完成，用scrapy写一个可以下载页面，解析静态页面的爬虫，加head
解析，可能用xpath和bs
其次，加入高级功能，加入js解析，验证码破解,页面去重，登陆，开始考虑解析出来的数据存储，图片存储，考虑页面更新
js解析，可以考虑Pyv8，PythonWebKit，Selenium，PhantomJS，Ghost.py等
数据存储，考虑用mongodb
去重，考虑用BitVector
最后，考虑分布式，数据库存储进一步优化，加入消息队列，加入限速，加入web服务，加入数据虚拟化
分布式管理暂时考虑的是celery
消息队列，考虑用rabbitmq或者redis
web服务考虑scrapy-jsonrpc
portia是个有意思的项目，可以方便的爬取数据，打算试试
可能引入docker做分布式
frontera提供了一个爬虫的前端组件

招聘网站的爬取策略

对于第一次爬取
是否需要爬取历史职位？
如果需要，则按职位id依次爬取，需要注意的是，相当数量的职位，已经被删除

对于职位更新
职位更新，按更新进度排序，每半天爬取一次，如果频率加快，就适度调整抓取频率

最后编辑于：2017.12.03 13:57:48

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

基于 Scrapy-redis 的分布式爬虫设计
目录前言安装环境Debian / Ubuntu / Deepin 下安装Windows 下安装基本使用初始化...
无口会咬人阅读 12,257评论 2赞 45
[3/4]我所经历的大数据平台发展史（三）：互联网时代 • 上篇
//我所经历的大数据平台发展史（三）：互联网时代 • 上篇http://www.infoq.com/cn/arti...
葡萄喃喃呓语阅读 51,541评论 10赞 200

Python爬虫学习手册
爬虫文章 in 简书程序员专题： like:128-Python 爬取落网音乐 like:127-【图文详解】py...
喜欢吃栗子阅读 22,449评论 4赞 411
爬虫（1）--- Python网络爬虫二三事
1 前言作为一名合格的数据分析师，其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
whenif阅读 18,212评论 45赞 523
从咏春的打木桩看重复练习的效率到精英主义的崛起
叶问师傅在片中的练习主要为打木桩。木桩不能动，按照现在我们所提倡的，要重视实战练习，你打的东西不会动有什么用处？ ...
kg001阅读 3,954评论 0赞 0

友情链接更多精彩内容

2赞3赞

1赞赏

手机看全文