登录注册写文章

粗略爬取51job网职位数据

粗略爬取51job网职位数据

案例说明：

爬取51job网上与python有关的工作岗位，工作范围为全国。分别采集职位信息，职位url，企业，工作地点，薪资。并将数据写入到excel中，方便日后进行处理。

案例分析：

首先明确一共有636个页面，然后就是这些页面url构成规则是显而易见。如：

https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=，对于这个链接，首先我们可以去掉一些无用的信息，去除后就剩下https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,1.html，通过修改最后一个数字，可以发现页面发生了改变，跳转到了最后一个一组数字对应的网页。

其次就是对采集的数据的提取了，我这里使用的是xpath方法提取的。

最后就是数据的存储了，这部分就在管道中再创建两个函数，一个是 __init__，用来初始化，打开文件，初始化写excel文件信息。

中间一个函数用来写入采集到的数据。最后一个函数用来关闭爬虫。这块就需要理解scrapy的个工作原理。

爬虫部分代码

效果截图

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

python数据爬虫——数据分析师岗位基本信息爬取（一）
爬取网址：www.51job.com 1.首先我们来分析需要爬取网站的情况在51job中输入：数据分析师 2.把...
十三新阅读 4,796评论 0赞 1
爬取51job上全国Python开发工程师的招聘信息
一、加载requests库和lxml库 import requests from lxmlimport etree...
梅不烦阅读 3,860评论 0赞 0
2019-08-30 用简书前辈的代码进行51job数据的爬取
总结：照搬照抄式的投机取巧不可行，还是得自己一步一步慢慢看，跑一跑代码，不对的地方百度找办法解决，比如今天明白了爬...
Veritas19k阅读 2,999评论 0赞 0
使用Python的Scrapy框架爬取51job职位和分析
一、爬取数据 Python版本是3.6，爬取后保存在MySQL中，版本是5.5。 51job搜索位置的链接是【数据...
木子人专臣巳水阅读 9,713评论 0赞 1
ContentType
application/x-www-form-urlencoded form数据被编码为名称/值对。这是标准的编码...
金刚_30bf阅读 4,783评论 0赞 0

4赞5赞

赞赏

手机看全文