爬虫作业1

目标确定

马上就要进入招聘季啦,各大公司和众多求职者都已“蓄势待发”。

我个人也得充分准备下争取拿到个好工作啦

所以对于求职这方面信息就是爬虫的重要目标。

爬取的数据

我个人偏向于对公司信息的了解,这个公司的综合评分啊、环境啊、氛围啊、面试经验啊都需要了解一番,做到心里有谱才好。

对应的网站

1.看准网 (重点)

2.企业口碑网

要爬取的url

  1. http://www.kanzhun.com/

  2. http://www.qykb.cn/

筛选的规则

初步是这样规划的

1.首先,得到公司的基本信息,包括公司名称、地点、企业类别、公司规模等

2.其次,筛选出公司的综合评分、平均月薪等待遇

3.再深入探究一点,就是筛选出该公司目前有“数据”、“分析”相关的职位,将职位信息爬取出来

4.在面试一栏中,筛选出有“数据”、“分析”主题的面试信息,包括评论者给公司和面试过程打的标签、评论的文本信息等,后期会主要处理文本信息,得到关键字样。

大体要爬取的内容是这些,而筛选规则在每一条中或多或少涉及到,后续涉及到具体的操作时会有更具体的筛选规则。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容