爬虫帮我找工作

最近在找前端的工作,无奈对大杭州的各大区不是很熟悉,每次看到公司的地址都要点进地图里看看具体位置。于是生出一个想法,能不能把招聘的信息标注在地图上,这样看起来就很直观了。
花了一天时间,撸了一个简单的版本,发出来分享一下,也为自己作一个小结。
附上GitHub地址,欢迎交流指正~

分析

我的习惯是在写代码之前先分析一下自己的需求和要达到的效果,以便于选择合适的技术和工具。

分析过程:

  1. 我的首要需求是招聘的信息,这部分信息要通过爬虫去抓取。因为之前写过Node.js的爬虫,所以选择Node.js来编写爬虫。
  2. 发送请求可以使用Node.js自带的https模块,也可以使用其他第三方的模块。我选择了superagent模块,用起来比较方便。(这里提一句,因为我爬的是拉勾,人家用的是https协议,所以要用https模块去发送请求)
  3. 考虑到爬取的链接会比较多,一口气发送那么多请求秒秒钟就被人家封IP了,所以要控制一下并发数,这里我选择了async模块。
  4. 爬到的数据用cheerio模块处理,如果有编码问题,可以用iconv-lite转换一下编码。拉勾用的是utf-8,就省去了这一步。
  5. 拿到所有数据之后,要把数据显示在地图上,毫无疑问要用到地图,这里选择用百度地图API。
  6. 考虑到易用性,加一个opn模块,自动打开浏览器,进入网页。

实现

编写爬虫之前先分析一下url,打开前端开发的页面,发现它的url是这样的:
https://www.lagou.com/zhaopin/qianduankaifa/?filterOption=3
再打开第二页,是这样:
https://www.lagou.com/zhaopin/qianduankaifa/2/?filterOption=3
于是我们找到了一个规律,每一页的url可以通过函数来生成

function url(pageNum){
  return `https://www.lagou.com/zhaopin/qianduankaifa/${pageNum}/?filterOption=3`;
}

假设我们随便爬一个

const superagent = require('superagent');
const cheerio = require('cheerio');
let _url = url(1);

superagent
  .get(_url)
  .end((err,res)=>{
    if(err) console.log(err);
    let $ = cheerio.load(res);
    //...
    //这里用cheerio处理res,拿到我们要的链接,用法参照jQuery
  });

响应回来的res是整个页面的html,把它交给cherrio进行处理。

OK,然后回到浏览器来看一下,一个页面中一共列了15条招聘信息,我们要拿到它们的链接好进入招聘详情页抓取需要的数据。于是,F12打开调试工具,找到对应a标签的位置


sp20170322_160532.png

这里可以看到,a标签中的href属性的值就是我们需要的链接,目标明确了,接下来用cheerio处理,就像用jQuery那样,简单粗暴

let hrefs = [];
$('a.position_link').each(function () {
  hrefs.push($(this).attr('href'));
});
unique(hrefs);  //简单的去个重,防止有重复的链接出现

考虑到反爬虫的机制,我们可以设置一下请求头来模仿浏览器请求,比如我们设置一个"User-Agent"字段

superagent
  .get(_url)
  .set({'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'})
  .end((err,res)=>{
    if(err) console.log(err);
  });

除了通过模仿浏览器请求来绕过反爬虫策略,还应该控制一下并发,这里用async模块

const async = require('async');
let limit = 5;
async.mapLimit(urls,limit,(url,callback)=>{
  //code...
  callback(null,data); //每次并发操作的结果data通过callback传递给results
},(err,results)=>{
  if(err) console.log(err);
  console.log(results);  //results是一个数组,包含了每个并发任务中传过来的data
});

每个并发任务完成后,处理完的data通过调用callback函数传递到最终的结果数组results中。上述代码,等所有并发任务完成后,会执行回调函数,打印出结果数组。

如此一来,我们就可以拿到包含详情页url的数组,然后通过这些url再去抓取具体的职位信息。待所有需要的信息都抓取到后,我们就可以拼装数据,把数据挂载到路由下了。

数据有了,剩下的就是把数据显示在百度地图上了,使用方法参见百度地图API

使用百度地图API v1.5以后的版本(最新版v2.0)前要先申请一个密钥(ak),然后在index.html中引入

<script type="text/javascript" src="http://api.map.baidu.com/api?v=2.0&ak=你的密钥"></script>

ps: 抓取到的地址信息是文字形式的地址,而百度地图API使用的是经纬度坐标,所以要将地址转换成经纬度。百度地图中提供了Geocoder类,可以生成一个地址解析器,将地址信息解析成经纬度坐标。

API文档

小结

虽然只是一个并不复杂的项目,但还是暴露出了一些问题,比如模块的划分,感觉还不够合理,代码的规划也略显凌乱。之后还会对代码进行修改,努力写出更加优雅的代码。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,594评论 18 139
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,431评论 25 707
  • WebSocket-Swift Starscream的使用 WebSocket 是 HTML5 一种新的协议。它实...
    香橙柚子阅读 23,690评论 8 183
  • 又入秋了,晚上回家走在昏昏暗暗的长巷时明显感到有些凉了。我是个挺怕冷的人,如果可以选择,我希望每天都可以窝在暖暖的...
    桓丘阅读 311评论 0 1
  • 书接上回。。 六百? 哈哈您真会开玩笑! 六千!行不? 这下换暖男自己惊呆了!他俩一个月的工资!面无表情的不说话!...
    顽爸的腔调阅读 570评论 0 2