粗略爬取51job网职位数据

案例说明:

爬取51job网上与python有关的工作岗位,工作范围为全国。分别采集职位信息,职位url,企业,工作地点,薪资。并将数据写入到excel中,方便日后进行处理。

案例分析:

首先明确一共有636个页面,然后就是这些页面url构成规则是显而易见。如:

https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=,对于这个链接,首先我们可以去掉一些无用的信息,去除后就剩下https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,1.html,通过修改最后一个数字,可以发现页面发生了改变,跳转到了最后一个一组数字对应的网页。


其次就是对采集的数据的提取了,我这里使用的是xpath方法提取的。

最后就是数据的存储了,这部分就在管道中再创建两个函数,一个是 __init__,用来初始化,打开文件,初始化写excel文件信息。

中间一个函数用来写入采集到的数据。最后一个函数用来关闭爬虫。这块就需要理解scrapy的个工作原理。


爬虫部分代码


效果截图


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容