爬虫

爬虫

按照一定规则自动抓取网络信息的程序

反爬虫

  • user-agent, referer,验证码
  • 单位时间访问次数
  • 关键信息图片混淆
  • 异步加载

node爬虫

一般用superAgent 和 Cheerio
superAgent发送请求,得到html
Cheerio把html的内容转换成像 jquery的对象,但是反爬虫规则它绕不过去

使用插件puppeteer

显示目录不存在的时候要在本地建相应的目录
page.evaluate相当于eval可以使用原生js的api
page.$(selector) 返回一个promise的eventHandle
page.$$(selector) 返回一群promise的eventHandle
page.$eval(selector,el=>{...})返回的也是单个元素
page.$$eval(selector,el=>{...})返回的是一群

需求分析

打开百度,点击图片tab,输入狗,点击搜索
看图片特征,base64和普通地址

nodejs关键技术

  • stream
  • 动态web framework (express koa)
  • child_process & cluster

需要深入学习

  • through2
  • express,koa,egg
  • ssr & 同构
  • nodejs源码(特别是stream buffer)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容