案例说明:
爬取51job网上与python有关的工作岗位,工作范围为全国。分别采集职位信息,职位url,企业,工作地点,薪资。并将数据写入到excel中,方便日后进行处理。
案例分析:
首先明确一共有636个页面,然后就是这些页面url构成规则是显而易见。如:
https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=,对于这个链接,首先我们可以去掉一些无用的信息,去除后就剩下https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,1.html,通过修改最后一个数字,可以发现页面发生了改变,跳转到了最后一个一组数字对应的网页。
其次就是对采集的数据的提取了,我这里使用的是xpath方法提取的。
最后就是数据的存储了,这部分就在管道中再创建两个函数,一个是 __init__,用来初始化,打开文件,初始化写excel文件信息。
中间一个函数用来写入采集到的数据。最后一个函数用来关闭爬虫。这块就需要理解scrapy的个工作原理。