javascript爬虫——爬取基金信息

简介

相比Python,JavaScript也是非常适合写爬虫的语言。原因有如下三个方面:

  • JavaScript异步IO机制适用于爬虫这种IO密集型任务。JavaScript中的回调非常自然,使用异步网络请求能够充分利用CPU。
  • JavaScript中的jQuery毫无疑问是最强悍的HTML解析工具,使用JavaScript写爬虫能够减少学习负担和记忆负担。虽然Python中有PyQuery,但终究还是比不上jQuery自然。
  • 爬取结果多为JSON,JavaScript是最适合处理JSON的语言。
    在javascript下,使用最简单的request就可以获得网站数据,npm安装方式如下。

npm install request --save

使用方式如下:

const request = require('request');
request('http://www.google.com', function (error, response, body) {
  console.error('error:', error); // Print the error if one occurred
  console.log('statusCode:', response && response.statusCode); // Print the response status code if a response was received
  console.log('body:', body); // Print the HTML for the Google homepage.
});

那么现在我们就从新浪基金网站上尝试爬取基金数据把:
前情回顾:Python爬虫之——爬取基金数据
本文介绍的主要内容和python差不多,只不过替换成了javascript实现,在web端使用echart太容易了,在这里就不复述了。

基金列表

首先来获得所有基金的列表:

var url = "http://vip.stock.finance.sina.com.cn/fund_center/data/jsonp.php/IO.XSRV2.CallbackList['6XxbX6h4CED0ATvW']/NetValue_Service.getNetValueOpen?page="+page+"&num="+num+"&sort=symbol&asc=0&ccode=&type2=0&type3="

请求这段地址,新浪网会按照每页num个数目,返回第page页的基金数据。例如page=1,num=2

/*<script>location.href='//sina.com';</script>*/
IO.XSRV2.CallbackList['6XxbX6h4CED0ATvW']({"total_num":9429,"data":[{"symbol":968087,"sname":"\u6c47\u4e30\u4e9a\u6d32\u
9ad8\u5165\u606f\u503a\u5238BM3O\u7c7b-\u6fb3\u5143","per_nav":"10.0610","total_nav":"10.0610","yesterday_nav":10.062,"n
av_rate":-0.0099,"nav_a":-0.00099999999999945,"sg_states":"\u5f00\u653e","nav_date":"2020-05-06","fund_manager":"--","jj
lx":"\u503a\u5238\u578b\u57fa\u91d1","jjzfe":0},{"symbol":968086,"sname":"\u6c47\u4e30\u4e9a\u6d32\u9ad8\u5165\u606f\u50
3a\u5238BM2\u7c7b-\u6e2f\u5143","per_nav":"10.0080","total_nav":"10.0080","yesterday_nav":10.006,"nav_rate":0.02,"nav_a"
:0.0019999999999989,"sg_states":"\u5f00\u653e","nav_date":"2020-05-06","fund_manager":"--","jjlx":"\u503a\u5238\u578b\u5
7fa\u91d1","jjzfe":0}],"exec_time":0.52291297912598,"sort_time":0.018283128738403});

新浪返回了如上格式的数据,我们只需要按照(和)将字符串拆分,并解析成JSON格式就能得到这2个基金的数据了。

var json =  JSON.parse( body.split(/[()]/)[1]);

JSON格式数据如下:

{
  total_num: 9429,
  data: [
    {
      symbol: 968087,
      sname: '汇丰亚洲高入息债券BM3O类-澳元',
      per_nav: '10.0610',
      total_nav: '10.0610',
      yesterday_nav: 10.062,
      nav_rate: -0.0099,
      nav_a: -0.00099999999999945,
      sg_states: '开放',
      nav_date: '2020-05-06',
      fund_manager: '--',
      jjlx: '债券型基金',
      jjzfe: 0
    },
    {
      symbol: 968086,
      sname: '汇丰亚洲高入息债券BM2类-港元',
      per_nav: '10.0080',
      total_nav: '10.0080',
      yesterday_nav: 10.006,
      nav_rate: 0.02,
      nav_a: 0.0019999999999989,
      sg_states: '开放',
      nav_date: '2020-05-06',
      fund_manager: '--',
      jjlx: '债券型基金',
      jjzfe: 0
    }
  ],
  exec_time: 0.56593203544617,
  sort_time: 0.023738861083984
}

可以盼到一共是9429个基金,我们只需要增加page,获取完全部的基金信息即可。
ps:我在不同次的调用中发现total_num这个数字会变 -_-!
测试了一下将num设置为10是比较合适的数字,太大返回的数据太多,可能出现问题。

/**
     * 获取基金列表
     * @param {Object} callback -- 回调函数
     */
    catchFundList:function(callback){
        var list_json = {
            total_num:0,
            data:[],
            exec_time:0,
            sort_time:0,
        }
        var page = 1,num = 2,total_num=0;
        var url = "http://vip.stock.finance.sina.com.cn/fund_center/data/jsonp.php/IO.XSRV2.CallbackList['6XxbX6h4CED0ATvW']/NetValue_Service.getNetValueOpen?page="+page+"&num="+num+"&sort=symbol&asc=0&ccode=&type2=0&type3=";

        catchFundList_cycle = function(){
            request(url, function(error, response, body) {
                if (!error && response.statusCode == 200) {                 
                    var json =  JSON.parse( body.split(/[()]/)[1]);
                    if(list_json.total_num==0){
                        list_json.total_num = json.total_num;
                    }else if(list_json.total_num!=json.total_num){
                        console.log("waring:两次请求的total num不一致");
                    }
                    list_json.exec_time += json.exec_time;
                    list_json.sort_time += json.sort_time;
                    newdata = list_json.data.concat(json.data);
                    delete list_json.data;
                    list_json.data = newdata;                                   
                    total_num +=  json.data.length;
                    
                    delete json;
                    if(total_num<list_json.total_num){
                        page = page + 1;
                        console.log(total_num+"/"+list_json.total_num);
                        catchFundList_cycle();
                    }else{
                        callback(list_json);
                    }
                }
            });
        };
        catchFundList_cycle();
    }

基金的基本信息

在获得基金列表的时候实际上已经获得了基金的基本信息,这里再通过另一个途径获取。

https://hq.sinajs.cn/list=fu_660001

返回信息:

var hq_str_fu_660001="农银行业成长混合A,15:04:00,2.6722,2.6223,3.2223,0.0262,1.9029,2020-02-20";

解析字符串时按照双引号(")拆分,然后再按照逗号(,)拆分即可。
返回字符串的信息依次为:名称,最新数据时间,最新预估值,单位净值,历史净值,暂不清楚,暂不清楚,日期。
按照以上的格式我们构造JSON数据,传递给callback函数即可。

/**
     * 获得基金的基本信息
     * @param {Object} code -- 基金代码
     * @param {Object} callback -- 回调函数
     * JSON格式,打包基金的基本数据
     * json = {
          code:'660001',
          name:'农银行业成长混合A',
          time:'15:04:00',
          est_nv:2.4872,
          nav:2.4861,
          hnv:3.0861,
          un1:0.0161,
          un2:0.0442,
          date:'2020-05-07', 
       }
     *
     */
    catchBasicInfo:function(code,callback){
        var opts = {
            url:"https://hq.sinajs.cn/list=fu_"+code,
            encoding:null//默认返回的字符集为GB18030,但是nodejs默认不支持,因此需要补定义编码
        }
        request(opts, function(error, response, body) {
            if (!error && response.statusCode == 200) {
                //依照( )拆分返回数据
                var decodeBody = iconvLite.decode(body, 'GBK').toString();//使用iconv-lite解码GBK
                var fu_list = decodeBody.split('"')[1].split(",");
                var json = {};
                json.code = code;
                json.name = fu_list[0];//基金名称
                json.time = fu_list[1];//查询时间
                json.est_nv = fu_list[2];//最新预估值
                json.nav = fu_list[3];//单位净值
                json.hnv = fu_list[4];//历史净值
                json.un1 = fu_list[5];//未知1
                json.un2 = fu_list[6];//未知2
                json.date = fu_list[7];//日期
                callback(json);
            }
        });
    }

这里要注意的一点就是,代码中用到了iconv-lite,因为网站返回的编码是GB18030,而这个编码nodejs是不支持的,因此需要采用解码库iconv-lite,安装起来很简单。

npm install iconv-lite --save

使用之前引用即可:

const iconvLite = require('iconv-lite');

抓取基金实时数据

https://app.xincai.com/fund/api/jsonp.json/var%20t1fu_660001=/XinCaiFundService.getFundYuCeNav?symbol=660001&___qn=3

基金的实时数据从这个地址获得,新浪会返回最新的实时信息。返回信息格式如下:

var t1fu_660001=({"yes":"2.6775","detail":"09:30,2.6822,09:31,...,15:03,2.7189"});

detail中按照时间、单位净值的格式记录当前的实时数据。我们还是用左括号'('和右括号')'来拆分字符串,并详细解析detail

    /**
     * 依照基金代码code查询该基金今日数据
     * @param {Object} code -- 基金代码
     * @param {Object} callback -- 回调函数
     * JSON格式,打包基金的今日数据
     *    json = {
          code:'660001'
          yes:2.4861,
          date:'Thu, 07 May 2020 09:00:51 GMT'
          detail:{
             '09:30':2.4983,
             '09.31':2.4991,
          }
      }
     */
    catchRealTime: function(code,callback) {
        var url = "https://app.xincai.com/fund/api/jsonp.json/var%20t1fu_" + code +
            "=/XinCaiFundService.getFundYuCeNav?symbol=" + code + "&___qn=3";
        request(url, function(error, response, body) {
            if (!error && response.statusCode == 200) {
                //依照( )拆分返回数据
                var bodyArray = body.split(/[()]/);
                var json =  JSON.parse(bodyArray[1]);
                json.code = code;
                json.yes = parseFloat(json.yes);
                json.date = new Date().toUTCString();
                var detail_list = json.detail.split(",")
                var detail = {};
                for(var i=0;i<detail_list.length;i+=2){
                    detail[detail_list[i]] = parseFloat(detail_list[i+1]);
                }
                json.detail = detail;
                callback(json);
            }
        });
    }

抓取基金历史数据

https://finance.sina.com.cn/fund/api/xh5Fund/nav/660001.js

返回信息格式如下:

xh5Fund({"data":"20200220,2.6775,3.2775,4.15436,82.38,81.8,56.24#
20200219,2.6223,3.2223,4.06871,84.26,81.19,55.47#...#20080804,1,1,1,,,",
"symbol":"660001","fhday":"20091123,20100426","fhvalue":"0.4,0.2","fhchaifen":"0,0"})

在data中通过井号(#)拆分得到每天的历史数据,每天的历史数据格式如下:

/**
     * 获得基金代码为code的历史数据
     * @param {Object} code
     * @param {Object} callback
     * JSON格式,打包基金的历史数据
     * json = {
          symbol: '660001',
          code:'660001',
          fhday:'20091123,20100426',
          beginday:'20091123',
          endday:'20100426',
          fhvalue:'0.4,0.2',
          fhchaifen:'0,0',
          data:[
              {
                  date:'20200220',//日期
                  nav:2.6775,//单位净值
                  anv:3.2775,//累积净值
                  hist_rewards:4.15436,//历史回报
                  mper:82.38,//月度排位百分比
                  qper:81.8,//季度排位百分比
                  yper:56.24//年度排位百分比
              }
          ]
       }
     */
    catchHistoryTime: function(code,callback){
        var url = "https://finance.sina.com.cn/fund/api/xh5Fund/nav/" + code + ".js";
        request(url, function(error, response, body) {
            if (!error && response.statusCode == 200) {
                var bodyArray = body.split(/[()]/);
                var json =  JSON.parse(bodyArray[1]);
                json.code = code;
                [json.beginday,json.endday] = json.fhday.split(",");
                var dataArray = json.data.split("#");
                var datas = [];
                for(var i=0;i<dataArray.length;i++){
                    var str = dataArray[i].split(",");
                    var data = {};
                    data.date = str[0];//日期
                    data.nav = parseFloat(str[1]);//单位净值
                    data.anv = parseFloat(str[2]);//累积净值
                    data.hist_rewards = parseFloat(str[3]);//历史回报
                    data.mper = parseFloat(str[4]);//月度排位百分比
                    data.qper = parseFloat(str[5]);//季度排位百分比
                    data.yper = parseFloat(str[6]);//年度排位百分比
                    datas.push(data);
                }
                json.data = datas;
                callback(json);
            }
        });
    }

这样我们就能将所有基金的数据爬取到位了,以后会逐步的研究如何分析这些数据。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351