一个简单的node爬虫

爬虫的原理其实很简单,就是模拟访问一个网页,在网页中寻找你需要的信息并进行保存

  • 今天的目标是某报名网站,因为我报了某个岗位,想知道竞争的人有多少,所以观察网站后发现,他们的报名简历直接存储,修改url就可以访问其他人的页面,这就代表我可以通过爬虫,从几万份简历中筛选出和我同一个岗位的对手
  • 因为对JS比较熟悉,所以选用了node来进行爬取
  • 用到的库有superagentasync
    superagent可以理解为服务端的ajax,async用来控制并发数,以免请求过多,导致禁止访问
  • 首先需要一个数组,经过手动比对,今年的简历从30000左右开始,48000停止,所以
let urls = []
for(let i = 30000;i<47715;i++){
  urls.push('http://xxxxxxxxxxxxx/'+i)
}
  • 然后通过async来控制并发数
async.mapLimit(urls,20,function(url,callback){
  superagent.get(url).set(header).end(function(err,res){
    if(res){check(res.text,url)}
    callback(null)
  })
  })
  function check(res,url){
    if('这里写自己的匹配内容,如岗位匹配'){
      console.log(url)
    }
  

这样一个简单的爬虫就做好了,通过这个爬虫我了解到和我同岗位的有10个人,并不多,加油咯~

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

友情链接更多精彩内容