Node.js 简单爬虫实践

1、简单抓取一个网页的数据信息

var http = require('http'),
    cheerio = require('cheerio'),
    url = 'http://www.imooc.com/learn/348';

//过滤
function filterChapter(html) {
    var $ = cheerio.load(html);

    var chapters = $('.chapter');
    var courseData = [];

    chapters.each(function(index, item) {
        var chapter = $(this);
        var chapterTitle = chapter.find('strong').text();
        var videos = chapter.find('.video').children('li');
        var chapterData = {
            chapterTitle: chapterTitle,
            videos: []
        };

        videos.each(function(index, item) {
            var video = $(this).find('.J-media-item');
            var videoTitle = video.text().replace(/[ ]/g, "")
                                         .replace(/[\r\n]/g, "")
                                         .replace(/[开始学习]/g, "");

            var id = video.attr('href').split('video/')[1];

            chapterData.videos.push({
                title: videoTitle,
                id: id
            });
        });

        courseData.push(chapterData);
    });


    return courseData;
}

//打印
function printCourseInfo(courseData) {
    courseData.forEach(function(item) {
        var chapterTitle = item.chapterTitle;
        item.videos.forEach(function(video) {
            console.log('【' + video.id + '】' + video.title + '\n')
        })
    })
}

http.get(url, (res) => {
    var html = '';

    res.on('data', (data) => {
        html += data;
    });

    res.on('end', () => {
        var courseData = filterChapter(html);
        printCourseInfo(courseData);
    });
}).on('error', () => {
    console.log('获取课程信息出错');
});

2、利用 Promise 同时异步请求多个页面

var http = require('http'),
    cheerio = require('cheerio'),
    Promise = require('Promise'),
    baseUrl = 'http://www.imooc.com/learn/',
    videoIds = [348, 637];

//过滤
function filterChapter(html) {
    var $ = cheerio.load(html),
        chapters = $('.chapter');

    var courseData = {
        title: $('.course-infos h2').text().trim().replace(/[\r\n]/g, ""),
        videos: []
    }

    chapters.each(function(index, item) {
        var chapter = $(this);
        var chapterTitle = chapter.find('strong').text().replace(/[ ]/g, "").replace(/[\r\n]/g, "");
        var videos = chapter.find('.video').children('li');
        var chapterData = {
            chapterTitle: chapterTitle,
            videos: []
        };

        videos.each(function(index, item) {
            var video = $(this).find('.J-media-item');
            var videoTitle = video.text().replace(/[ ]/g, "")
                                         .replace(/[\r\n]/g, "")
                                         .replace(/[开始学习]/g, "");

            var id = video.attr('href').split('video/')[1];

            chapterData.videos.push({
                title: videoTitle,
                id: id
            });
        });

        courseData.videos.push(chapterData);
    });


    return courseData;
}

//打印
function printCourseInfo(coursesData) {

    coursesData.forEach(function(courseData){
        console.log('\n **'+courseData.title +'**\n ');

        courseData.videos.forEach(function(item) {
            console.log(item.chapterTitle);
            var chapterTitle = item.chapterTitle;
            item.videos.forEach(function(video) {
                console.log('【' + video.id + '】' + video.title)
            })
        })
    })
    
}

//利用Promise 异步请求每一个URL的模版数据
function asyncAllPages(url){
    return new Promise(function(resolve, reject){
        console.log('启动爬虫1号:' + url);

        http.get(url, (res) => {
            var html = '';

            res.on('data', (data) => {
                html += data;
            });

            res.on('end', () => {
                resolve(html);
            });
        }).on('error', () => {
            reject(e);
            console.log('获取课程信息出错');
        });
    })
}

//存入所有页面请求到的模版数据
var fetchPageArray = [];
videoIds.forEach(function(id){
    fetchPageArray.push(asyncAllPages(baseUrl + id));
})

//利用Promise请求所有的页面, pages对应的就是请求每个页面过后传递下来的数据 的数组
Promise
    .all(fetchPageArray)
    .then(function(pages){

        var coursesData = [];
        pages.forEach(function(html){
            var course = filterChapter(html);
            coursesData.push(course);
        })

        printCourseInfo(coursesData);

    })

3、模拟提交请求

var http=require('http')
var querystring = require('querystring')
var postData = querystring.stringify({
    'content':'node learning srart now ! let\'s go !',
    'mid':8837
})
var options ={
    hostname : 'www.imooc.com',
    port:80,
    path :'/course/docomment',
    method:'POST',
    headers:{
        'Accept':'application/json, text/javascript, */*; q=0.01',
        'Accept-Encoding':'gzip, deflate',
        'Accept-Language':'zh-CN,zh;q=0.8,en;q=0.6',
        'Content-Length':postData.length,
        'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
        'Cookie':'...',
        'Host':'www.imooc.com',
        'Origin':'http://www.imooc.com',
        'Pragma':'no-cache',
        'Referer':'http://www.imooc.com/video/8837',
        'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36',
        'X-Requested-With':'XMLHttpRequest'
    }
}

var req = http.request(options, function(res){
    console.log('status:'+res.statusCode);
    console.log('headers:'+JSON.stringify(res.headers));


    res.on('data',function(chunk){
        console.log(Buffer.isBuffer(chunk))
        console.log(typeof chunk);
    })

    res.on('end',function(){
        console.log('评论完毕')
    });
    res.on('error',function(e){
        console.log('Error:'+e.message)
    })
})
req.write(postData);
req.end();
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,313评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,369评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,916评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,333评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,425评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,481评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,491评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,268评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,719评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,004评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,179评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,832评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,510评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,153评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,402评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,045评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,071评论 2 352

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,957评论 25 707
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,644评论 18 139
  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 12,080评论 4 62
  • 尊重“生物链的法则:物竞天择,适者生存。” 体验入: 不可盲目的去解决问题,因为好多人(包含自己)不清楚问题是什么...
    能量在此阅读 382评论 0 1
  • 这里的文章是真实存在过的,为了不让它显得那么现实我才会加一些虚构的东西,不为了出名,而是想分享自己的故事。我是Se...
    Seines阅读 160评论 0 0