简介
相比Python,JavaScript也是非常适合写爬虫的语言。原因有如下三个方面:
- JavaScript异步IO机制适用于爬虫这种IO密集型任务。JavaScript中的回调非常自然,使用异步网络请求能够充分利用CPU。
- JavaScript中的jQuery毫无疑问是最强悍的HTML解析工具,使用JavaScript写爬虫能够减少学习负担和记忆负担。虽然Python中有PyQuery,但终究还是比不上jQuery自然。
- 爬取结果多为JSON,JavaScript是最适合处理JSON的语言。
在javascript下,使用最简单的request就可以获得网站数据,npm安装方式如下。
npm install request --save
使用方式如下:
const request = require('request');
request('http://www.google.com', function (error, response, body) {
console.error('error:', error); // Print the error if one occurred
console.log('statusCode:', response && response.statusCode); // Print the response status code if a response was received
console.log('body:', body); // Print the HTML for the Google homepage.
});
那么现在我们就从新浪基金网站上尝试爬取基金数据把:
前情回顾:Python爬虫之——爬取基金数据
本文介绍的主要内容和python差不多,只不过替换成了javascript实现,在web端使用echart太容易了,在这里就不复述了。
基金列表
首先来获得所有基金的列表:
var url = "http://vip.stock.finance.sina.com.cn/fund_center/data/jsonp.php/IO.XSRV2.CallbackList['6XxbX6h4CED0ATvW']/NetValue_Service.getNetValueOpen?page="+page+"&num="+num+"&sort=symbol&asc=0&ccode=&type2=0&type3="
请求这段地址,新浪网会按照每页num个数目,返回第page页的基金数据。例如page=1,num=2
/*<script>location.href='//sina.com';</script>*/
IO.XSRV2.CallbackList['6XxbX6h4CED0ATvW']({"total_num":9429,"data":[{"symbol":968087,"sname":"\u6c47\u4e30\u4e9a\u6d32\u
9ad8\u5165\u606f\u503a\u5238BM3O\u7c7b-\u6fb3\u5143","per_nav":"10.0610","total_nav":"10.0610","yesterday_nav":10.062,"n
av_rate":-0.0099,"nav_a":-0.00099999999999945,"sg_states":"\u5f00\u653e","nav_date":"2020-05-06","fund_manager":"--","jj
lx":"\u503a\u5238\u578b\u57fa\u91d1","jjzfe":0},{"symbol":968086,"sname":"\u6c47\u4e30\u4e9a\u6d32\u9ad8\u5165\u606f\u50
3a\u5238BM2\u7c7b-\u6e2f\u5143","per_nav":"10.0080","total_nav":"10.0080","yesterday_nav":10.006,"nav_rate":0.02,"nav_a"
:0.0019999999999989,"sg_states":"\u5f00\u653e","nav_date":"2020-05-06","fund_manager":"--","jjlx":"\u503a\u5238\u578b\u5
7fa\u91d1","jjzfe":0}],"exec_time":0.52291297912598,"sort_time":0.018283128738403});
新浪返回了如上格式的数据,我们只需要按照(和)将字符串拆分,并解析成JSON格式就能得到这2个基金的数据了。
var json = JSON.parse( body.split(/[()]/)[1]);
JSON格式数据如下:
{
total_num: 9429,
data: [
{
symbol: 968087,
sname: '汇丰亚洲高入息债券BM3O类-澳元',
per_nav: '10.0610',
total_nav: '10.0610',
yesterday_nav: 10.062,
nav_rate: -0.0099,
nav_a: -0.00099999999999945,
sg_states: '开放',
nav_date: '2020-05-06',
fund_manager: '--',
jjlx: '债券型基金',
jjzfe: 0
},
{
symbol: 968086,
sname: '汇丰亚洲高入息债券BM2类-港元',
per_nav: '10.0080',
total_nav: '10.0080',
yesterday_nav: 10.006,
nav_rate: 0.02,
nav_a: 0.0019999999999989,
sg_states: '开放',
nav_date: '2020-05-06',
fund_manager: '--',
jjlx: '债券型基金',
jjzfe: 0
}
],
exec_time: 0.56593203544617,
sort_time: 0.023738861083984
}
可以盼到一共是9429个基金,我们只需要增加page,获取完全部的基金信息即可。
ps:我在不同次的调用中发现total_num这个数字会变 -_-!
测试了一下将num设置为10是比较合适的数字,太大返回的数据太多,可能出现问题。
/**
* 获取基金列表
* @param {Object} callback -- 回调函数
*/
catchFundList:function(callback){
var list_json = {
total_num:0,
data:[],
exec_time:0,
sort_time:0,
}
var page = 1,num = 2,total_num=0;
var url = "http://vip.stock.finance.sina.com.cn/fund_center/data/jsonp.php/IO.XSRV2.CallbackList['6XxbX6h4CED0ATvW']/NetValue_Service.getNetValueOpen?page="+page+"&num="+num+"&sort=symbol&asc=0&ccode=&type2=0&type3=";
catchFundList_cycle = function(){
request(url, function(error, response, body) {
if (!error && response.statusCode == 200) {
var json = JSON.parse( body.split(/[()]/)[1]);
if(list_json.total_num==0){
list_json.total_num = json.total_num;
}else if(list_json.total_num!=json.total_num){
console.log("waring:两次请求的total num不一致");
}
list_json.exec_time += json.exec_time;
list_json.sort_time += json.sort_time;
newdata = list_json.data.concat(json.data);
delete list_json.data;
list_json.data = newdata;
total_num += json.data.length;
delete json;
if(total_num<list_json.total_num){
page = page + 1;
console.log(total_num+"/"+list_json.total_num);
catchFundList_cycle();
}else{
callback(list_json);
}
}
});
};
catchFundList_cycle();
}
基金的基本信息
在获得基金列表的时候实际上已经获得了基金的基本信息,这里再通过另一个途径获取。
返回信息:
var hq_str_fu_660001="农银行业成长混合A,15:04:00,2.6722,2.6223,3.2223,0.0262,1.9029,2020-02-20";
解析字符串时按照双引号(")拆分,然后再按照逗号(,)拆分即可。
返回字符串的信息依次为:名称,最新数据时间,最新预估值,单位净值,历史净值,暂不清楚,暂不清楚,日期。
按照以上的格式我们构造JSON数据,传递给callback函数即可。
/**
* 获得基金的基本信息
* @param {Object} code -- 基金代码
* @param {Object} callback -- 回调函数
* JSON格式,打包基金的基本数据
* json = {
code:'660001',
name:'农银行业成长混合A',
time:'15:04:00',
est_nv:2.4872,
nav:2.4861,
hnv:3.0861,
un1:0.0161,
un2:0.0442,
date:'2020-05-07',
}
*
*/
catchBasicInfo:function(code,callback){
var opts = {
url:"https://hq.sinajs.cn/list=fu_"+code,
encoding:null//默认返回的字符集为GB18030,但是nodejs默认不支持,因此需要补定义编码
}
request(opts, function(error, response, body) {
if (!error && response.statusCode == 200) {
//依照( )拆分返回数据
var decodeBody = iconvLite.decode(body, 'GBK').toString();//使用iconv-lite解码GBK
var fu_list = decodeBody.split('"')[1].split(",");
var json = {};
json.code = code;
json.name = fu_list[0];//基金名称
json.time = fu_list[1];//查询时间
json.est_nv = fu_list[2];//最新预估值
json.nav = fu_list[3];//单位净值
json.hnv = fu_list[4];//历史净值
json.un1 = fu_list[5];//未知1
json.un2 = fu_list[6];//未知2
json.date = fu_list[7];//日期
callback(json);
}
});
}
这里要注意的一点就是,代码中用到了iconv-lite,因为网站返回的编码是GB18030,而这个编码nodejs是不支持的,因此需要采用解码库iconv-lite,安装起来很简单。
npm install iconv-lite --save
使用之前引用即可:
const iconvLite = require('iconv-lite');
抓取基金实时数据
基金的实时数据从这个地址获得,新浪会返回最新的实时信息。返回信息格式如下:
var t1fu_660001=({"yes":"2.6775","detail":"09:30,2.6822,09:31,...,15:03,2.7189"});
detail中按照时间、单位净值的格式记录当前的实时数据。我们还是用左括号'('和右括号')'来拆分字符串,并详细解析detail
/**
* 依照基金代码code查询该基金今日数据
* @param {Object} code -- 基金代码
* @param {Object} callback -- 回调函数
* JSON格式,打包基金的今日数据
* json = {
code:'660001'
yes:2.4861,
date:'Thu, 07 May 2020 09:00:51 GMT'
detail:{
'09:30':2.4983,
'09.31':2.4991,
}
}
*/
catchRealTime: function(code,callback) {
var url = "https://app.xincai.com/fund/api/jsonp.json/var%20t1fu_" + code +
"=/XinCaiFundService.getFundYuCeNav?symbol=" + code + "&___qn=3";
request(url, function(error, response, body) {
if (!error && response.statusCode == 200) {
//依照( )拆分返回数据
var bodyArray = body.split(/[()]/);
var json = JSON.parse(bodyArray[1]);
json.code = code;
json.yes = parseFloat(json.yes);
json.date = new Date().toUTCString();
var detail_list = json.detail.split(",")
var detail = {};
for(var i=0;i<detail_list.length;i+=2){
detail[detail_list[i]] = parseFloat(detail_list[i+1]);
}
json.detail = detail;
callback(json);
}
});
}
抓取基金历史数据
返回信息格式如下:
xh5Fund({"data":"20200220,2.6775,3.2775,4.15436,82.38,81.8,56.24#
20200219,2.6223,3.2223,4.06871,84.26,81.19,55.47#...#20080804,1,1,1,,,",
"symbol":"660001","fhday":"20091123,20100426","fhvalue":"0.4,0.2","fhchaifen":"0,0"})
在data中通过井号(#)拆分得到每天的历史数据,每天的历史数据格式如下:
/**
* 获得基金代码为code的历史数据
* @param {Object} code
* @param {Object} callback
* JSON格式,打包基金的历史数据
* json = {
symbol: '660001',
code:'660001',
fhday:'20091123,20100426',
beginday:'20091123',
endday:'20100426',
fhvalue:'0.4,0.2',
fhchaifen:'0,0',
data:[
{
date:'20200220',//日期
nav:2.6775,//单位净值
anv:3.2775,//累积净值
hist_rewards:4.15436,//历史回报
mper:82.38,//月度排位百分比
qper:81.8,//季度排位百分比
yper:56.24//年度排位百分比
}
]
}
*/
catchHistoryTime: function(code,callback){
var url = "https://finance.sina.com.cn/fund/api/xh5Fund/nav/" + code + ".js";
request(url, function(error, response, body) {
if (!error && response.statusCode == 200) {
var bodyArray = body.split(/[()]/);
var json = JSON.parse(bodyArray[1]);
json.code = code;
[json.beginday,json.endday] = json.fhday.split(",");
var dataArray = json.data.split("#");
var datas = [];
for(var i=0;i<dataArray.length;i++){
var str = dataArray[i].split(",");
var data = {};
data.date = str[0];//日期
data.nav = parseFloat(str[1]);//单位净值
data.anv = parseFloat(str[2]);//累积净值
data.hist_rewards = parseFloat(str[3]);//历史回报
data.mper = parseFloat(str[4]);//月度排位百分比
data.qper = parseFloat(str[5]);//季度排位百分比
data.yper = parseFloat(str[6]);//年度排位百分比
datas.push(data);
}
json.data = datas;
callback(json);
}
});
}
这样我们就能将所有基金的数据爬取到位了,以后会逐步的研究如何分析这些数据。