使用 eventproxy 控制并发

目标

新建文件 app.js,当调用 node app.js 时,输出 CNode(https://cnodejs.org/ ) 社区首页的所有帖子标题和链接以及第一条评论,以 json 的格式返回。
输出示例:

[
    {
        title: '微信应用号在前端开发圈火了,而Docker其实早已火遍后端',
        href: 'https: //cnodejs.org/topic/57e45421015b4f570e0d02df',
        comment1: 'weapp跟Docker。。。这两者有关系吗。。。。'
    },
    {
        title: '开发过微信签名算法的大大看过来。。。',
        href: 'https: //cnodejs.org/topic/57e287a43af3942a3aa3b959',
        comment1: '这个参数是微信加的用于跟踪之类而且前端wx.config注册一次以后就用不到签名了还是看你的业务逻辑吧'
    }
]

在上一篇文章(使用 superagent 与 cheerio 完成简单爬虫)中我们介绍了如何使用 superagent 和 cheerio 来获取主页内容,那只需要发起一次 http get 请求就能办到。但这次,我们需要取出每个帖子的第一条评论,这就要求我们对每个帖子的链接发起请求,并用 cheerio 去取出其中的第一条评论。

CNode 目前每一页有 40 个帖子,于是我们就需要发起 1 + 40 个请求,来达到我们的目标。对于后面的 40 个请求,我们并发地发起,而且不会遇到多线程啊锁什么的,Node.js 的并发模型跟多线程不同,抛却那些观念。

初识 eventproxy

用 js 写过异步的同学应该都知道,如果你要并发异步获取两三个地址的数据,并且要在获取到数据之后,对这些数据一起进行利用的话,常规的写法是自己维护一个计数器。

先定义一个 var count = 0,然后每次抓取成功以后,就 count++。如果你是要抓取三个源的数据,由于你根本不知道这些异步操作到底谁先完成,那么每次当抓取成功的时候,就判断一下 count === 3 。当值为真时,使用另一个函数继续完成操作。

eventproxy 就起到了这个计数器的作用,它来帮你管理到底这些异步操作是否完成,完成之后,它会自动调用你提供的处理函数,并将抓取到的数据当参数传过来。
假设我们不使用 eventproxy 也不使用计数器时,抓取三个源的写法是这样的:

// 参考 jquery 的 $.get 方法
$.get("http://data1_source", function(data1) {
    // something
    $.get("http://data2_source", function(data2) {
        // something
        $.get("http://data3_source", function(data3) {
            // something
            var html = fuck(data1, data2, data3);
            render(html);
        });
    });
});

上述的代码大家都写过吧。先获取 data1,获取完成之后获取 data2,然后再获取 data3,然后 fuck 它们,进行输出。

但大家应该也想到了,其实这三个源的数据,是可以并行去获取的,data2 的获取并不依赖 data1 的完成,data3 同理也不依赖 data2。

于是我们用计数器来写,会写成这样:

(function() {
    var count = 0;
    var result = {};

    $.get('http://data1_source', function(data) {
        result.data1 = data;
        count++;
        handle();
    });
    $.get('http://data2_source', function(data) {
        result.data2 = data;
        count++;
        handle();
    });
    $.get('http://data3_source', function(data) {
        result.data3 = data;
        count++;
        handle();
    });

    function handle() {
        if (count === 3) {
            var html = fuck(result.data1, result.data2, result.data3);
            render(html);
        }
    }
})();

如果用 eventproxy,写出来是这样的:

var ep = new eventproxy();
ep.all('data1_event', 'data2_event', 'data3_event', function(data1, data2, data3) {
    var html = fuck(data1, data2, data3);
    render(html);
});

$.get('http://data1_source', function(data) {
    ep.emit('data1_event', data);
});

$.get('http://data2_source', function(data) {
    ep.emit('data2_event', data);
});

$.get('http://data3_source', function(data) {
    ep.emit('data3_event', data);
});

说白了,也就是个高等计数器嘛。
ep.all('data1_event', 'data2_event', 'data3_event', function (data1, data2, data3) {});
这一句,监听了三个事件,分别是 data1_event, data2_event, data3_event,每当一个源的数据抓取完成时,就通过 ep.emit() 来告诉 ep 自己,某某事件已经完成了。当三个事件未同时完成时,ep.emit()调用之后不会做任何事;当三个事件都完成时,就会调用末尾的那个回调函数,来对它们进行统一处理。

最终版代码:

var superagent = require('superagent');
var cheerio = require('cheerio');
// url 模块是 Node.js 标准库里面的,http://nodejs.org/api/url.html
var url = require('url');
var eventproxy = require('eventproxy');


var cnodeUrl = 'https://cnodejs.org/'

superagent.get(cnodeUrl)
    .end(function(err, res) {
        var topicUrls = [];
        var $ = cheerio.load(res.text);
        // 获取首页所有的链接
        $('#topic_list .topic_title').each(function(index, element) {
            var $element = $(element);
            // $element.attr('href') 本来的样子是 /topic/542acd7d5d28233425538b04
            // 我们用 url.resolve 来自动推断出完整 url,变成 https://cnodejs.org/topic/542acd7d5d28233425538b04 的形式
            // 具体请看 http://nodejs.org/api/url.html#url_url_resolve_from_to 的示例
            var href = url.resolve(cnodeUrl, $element.attr('href'));
            topicUrls.push(href);
        });

        // 得到一个 eventproxy 的实例
        var ep = new eventproxy();
        // 命令 ep 重复监听 topicUrls.length 次(在这里也就是 40 次) 再执行后面的回调函数
        ep.after('topic_html', topicUrls.length, function(topics) {
            // 数组的 map 方法返回一个由原数组中的每个元素调用一个指定方法后的返回值组成的新数组
            var data = topics.map(function(topicPair) {
                var topicUrl = topicPair[0];
                var topicHtml = topicPair[1];
                var $ = cheerio.load(topicHtml);
                return {
                    title: $('.topic_full_title').text().trim(),
                    href: topicUrl,
                    comment1: $('.reply_content').eq(0).text().trim()
                };
            });
            console.log(data);
        });
        topicUrls.forEach(function(topicUrl) {
            superagent.get(topicUrl)
                .end(function(err, res) {
                    ep.emit('topic_html', [topicUrl, res.text]);
                });
        });
    });

在上面的代码中我们使用到了 eventproxy的重复异步协作。参照(https://github.com/JacksonTian/eventproxy#重复异步协作 )。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容