登录注册写文章

一个简单的node爬虫

一个简单的node爬虫

爬虫的原理其实很简单，就是模拟访问一个网页，在网页中寻找你需要的信息并进行保存

今天的目标是某报名网站，因为我报了某个岗位，想知道竞争的人有多少，所以观察网站后发现，他们的报名简历直接存储，修改url就可以访问其他人的页面，这就代表我可以通过爬虫，从几万份简历中筛选出和我同一个岗位的对手
因为对JS比较熟悉，所以选用了node来进行爬取
用到的库有superagent，async
superagent可以理解为服务端的ajax，async用来控制并发数，以免请求过多，导致禁止访问
首先需要一个数组，经过手动比对，今年的简历从30000左右开始，48000停止，所以

let urls = []
for(let i = 30000;i<47715;i++){
  urls.push('http://xxxxxxxxxxxxx/'+i)
}

然后通过async来控制并发数

async.mapLimit(urls,20,function(url,callback){
  superagent.get(url).set(header).end(function(err,res){
    if(res){check(res.text,url)}
    callback(null)
  })
  })
  function check(res,url){
    if('这里写自己的匹配内容，如岗位匹配'){
      console.log(url)
    }

这样一个简单的爬虫就做好了，通过这个爬虫我了解到和我同岗位的有10个人，并不多，加油咯~

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

《这就是搜索引擎》爬虫部分摘抄总结
《这就是搜索引擎》这本书的第二章是关于爬虫的，干货很多（文章几乎没有废话，所以复制居多），可以参考搜索引擎是如何构...
SeanCheney阅读 2,181评论 0赞 20
一只node爬虫的升级打怪之路
我一直觉得，爬虫是许多web开发人员难以回避的点。我们也应该或多或少的去接触这方面，因为可以从爬虫中学习到web开...
栀子花_ef39阅读 1,050评论 0赞 2

高晓松对谈国师张艺谋，为何在新生代演员中只推荐他？
演员的诞生中高晓松对谈国师张艺谋（下）干货满满，面对各种尖锐话题毫不避讳率性探讨。在本期中两人聊得特别嗨，手舞足...
舍近求远吧阅读 402评论 0赞 0
心安即是归处
有这样一个人，他不仅是伟大的文学家，书画家，他也是一个无可救药的乐天派、一个伟大的人道主义者、一个...
GG宁阅读 699评论 0赞 3
在一个萧条的城，坚持乐观向上的心态
我还不能选择安逸的生活，我还没到可以享受安逸的年纪，即使和老家比，这是一座萧条落寞的城，那我也要打起精神头，努力挺...
可意阅读 430评论 0赞 0

友情链接更多精彩内容

97赞98赞

赞赏

手机看全文