登录注册写文章

爬虫

猪猪9527

爬虫

按照一定规则自动抓取网络信息的程序

反爬虫

user-agent, referer,验证码
单位时间访问次数
关键信息图片混淆
异步加载

node爬虫

一般用superAgent 和 Cheerio
superAgent发送请求,得到html
Cheerio把html的内容转换成像 jquery的对象,但是反爬虫规则它绕不过去

使用插件puppeteer

显示目录不存在的时候要在本地建相应的目录
page.evaluate相当于eval可以使用原生js的api
page.$(selector) 返回一个promise的eventHandle
page.$$(selector) 返回一群promise的eventHandle
page.$eval(selector,el=>{...})返回的也是单个元素
page.$$eval(selector,el=>{...})返回的是一群

需求分析

打开百度,点击图片tab,输入狗,点击搜索
看图片特征,base64和普通地址

nodejs关键技术

stream
动态web framework (express koa)
child_process & cluster

需要深入学习

through2
express,koa,egg
ssr & 同构
nodejs源码(特别是stream buffer)

最后编辑于：2017.12.11 14:50:27

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

友情链接更多精彩内容

赞1赞

赞赏

手机看全文

爬虫

爬虫

反爬虫

node爬虫

需求分析

nodejs关键技术

需要深入学习

相关阅读更多精彩内容

友情链接更多精彩内容