带噶猴,为大家带来node抓取数据(小白练习)!!!
在开始之前呢先检查自己是否安装了node,指令:node -v(ps:应该都会)
新建index.js文件 然后引入依赖
var express = require('express');
var superagent = require('superagent');
var cheerio = require('cheerio');
var request = require('request')
接下来就开始写一下请求
app.get('/', function (req, res, next) {
superagent.get('你要输入的网址')
.end(function (err, sres) {
if (err) {
return next(err);
}
sres.text 里面存储着网页的 html 内容,将它传给 cheerio.load 之后
就可以得到一个实现了 jquery 接口的变量,我们习惯性地将它命名为 `$`
剩下就都是 jquery 的内容了
var $ = cheerio.load(sres.text);
var imgs = [];
var content = '';
$('.pic').each(function (index, element) {
let temp = {
'标题': $(element).find('span').text()
}
content += JSON.stringify(temp) + '\n';
console.log(content);
下面也是一样查看页面elemen结构
if($(element).find('img').length > 0){
imgs.push($(element).find('img').attr('src'));
console.log(imgs)
}
});
res.send(imgs); //到locahost://3000查看
});
});
app.listen(3000, function () {
console.log('app is listenling at port 3000');
});