上篇文章介绍了爬虫的基本概念和基本原理,这篇开始我们一起来看看具体如何从网页中爬取自己想要的数据。
在下面爬虫的栗子中,我们使用nodejs来作为我们的运行环境(我是前端工程师哦)!
一、准备环境
1、nodejs环境安装可以点击这里nodejs中文网下载安装包哦!
二、创建项目
1、安装好nodejs后,运行cmd切换到你想要创建的目录;
2、mkdir myspider(创建myspider文件夹);
3、cd 到myspider目录下;
4、命令行输入npm init(初始化该小项目):
此时需要填写一些项目信息,你可以根据情况填写,当然也可以一路回车哦。
执行完成后会有一个packge.json配置文件:
5、安装第三方包库
这些包库在程序中引入会自动加载的哦。这些包库的使用不仅会大大减少我们的代码量,而且还会使我们的代码更优雅、更好维护哦。
我们的所有第三方库都是依赖于npm(node package manager)node包管理器来下载,只需要运行npm install xxx --save来安装,了解更多关于npm点击这里查看。(我觉得这就是nodejs发展异常迅速的原因之一)
1)、express(npm install express --save)
express库为我们提供了一系列便捷的方法,让我们管理和构建大型项目变的非常简单;小项目就更不必说了。更多关于express可以点击这里查看。
2)、cheerio(npm install express --save)
cherrio 是为服务器特别定制的,快速、灵活、实施的jQuery核心实现。通过cherrio,我们就可以将抓取到的内容,像使用jquery的方式来使用了。可以点击这里查看。
简单示例如下:
varcheerio = require('cheerio');
$= cheerio.load('Hello world');
$('h2.title').text('Hello there!');
3)、superagent(npm install superagent --save)
superagent模块让http请求变的更加简单,了解更多点击这里查看。最简单的一个示例如下:
var request = require('superagent');
request.get('http://example.com/search').end(function(res){});
有些模块是nodejs中的内置模块不需要使用npm来下载的,还有其他第三方模块会在后续文章中陆续介绍。
三、开始你的表演。。。
安装完上面的包,我们就可以开始简单的实践喽!在myspider文件加下创建app.js。如下图 :
var express=require('express');
var cheerio=require('cheerio');
var request=require('superagent');
var app=express();
app.get('/',function(req,res){
console.log('hello man!');
});
app.listen(function(req,res) {
console.log('server is running at port 3000!');
});
然后在命令行运行 node app.js,如图:
接着在浏览器地址栏输入localhost:3000/,回车,如图:
这样一个简单的本地服务器模拟就实现了哦!
接下来我们就看看在服务器中使用request向我们的目标网站发起http请求,将原来代码改为:
app.get('/',function(req,res){
request.get('http://www.dytt8.net').end(function(err,ress) {
if(!err) {
res.send('请求成功喽!');
}
});
});
我们这样就可以进入我们要爬取网站了!
我们引入cheerio包帮我们实现我们想要爬取的内容,将app.js代码改一下:
var express=require('express');
var cheerio=require('cheerio');
var charset=require('superagent-charset');//解决网页编码问题
var request=require('superagent');
var app=express();
charset(request);
app.get('/',function(req,res){
request.get('http://www.dytt8.net').charset('gb2312').end(function(err,ress) {
//错误处理
if(err){
console.log(err);
}else{
var $=cheerio.load(ress.text);//$和jquery中的选择器类似,可以选择网页中所有的元素
var navText=$('#menu .contain ul li a').text();
res.end(navText);
}
});
});
app.listen(3000,function(req,res) {
console.log('server is running at port 3000!');
});
浏览器运行结果如下:
到此一个最简单的爬虫程序就基本实践成功了,后续会逐步实现更为复杂的爬虫程序,希望对大家有所帮助。错误难免,敬请斧正!