爬虫设计

[TOC]

目标

  • 主流网站招聘信息爬取
    爬取并解析,归类,去重,存储招聘信息

  • 企业口碑分析
    获取企业的评价,进而通过自然语言处理,分析评论的情感

  • 满意度监控
    待定,暂时不做,初步想法是,爬取微博或者主流论坛,根据关键词,抓取需要的信息进行二次分析

  • 数据展示
    flask或者别人做

项目概要设计

写招聘网站的爬虫,考虑三步走:

  • 首先,把架子完成,用scrapy写一个可以下载页面,解析静态页面的爬虫,加head
    解析,可能用xpath和bs

  • 其次,加入高级功能,加入js解析,验证码破解,页面去重,登陆,开始考虑解析出来的数据存储,图片存储,考虑页面更新
    js解析,可以考虑Pyv8,PythonWebKit,Selenium,PhantomJS,Ghost.py等
    数据存储,考虑用mongodb
    去重,考虑用BitVector

  • 最后,考虑分布式,数据库存储进一步优化,加入消息队列,加入限速,加入web服务,加入数据虚拟化
    分布式管理暂时考虑的是celery
    消息队列,考虑用rabbitmq或者redis
    web服务考虑scrapy-jsonrpc
    portia是个有意思的项目,可以方便的爬取数据,打算试试
    可能引入docker做分布式
    frontera提供了一个爬虫的前端组件

招聘网站的爬取策略

  • 对于第一次爬取
    是否需要爬取历史职位?
    如果需要,则按职位id依次爬取,需要注意的是,相当数量的职位,已经被删除
  • 对于职位更新
    职位更新,按更新进度排序,每半天爬取一次,如果频率加快,就适度调整抓取频率
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容