Node爬虫

  • 使用cheerio爬虫模块
    抓取页面后获取元素信息跟jQuery基本一样
const cheerio = require('cheerio');
const co = require('co');

/**
 * @method 提取起点此资源信息
 * @param id 小说id(从列表页爬取到的)
 * @returns {Function}
 */
seachInfo(id) {
    return function (cb) {
        co(function* () {
            let result = yield Util.req.sendReq('http://book.qidian.com/info/' + id, 'GET', '', 'crawler');// 发送请求的工具类
            let $ = cheerio.load(result, {decodeEntities: false}); //采用cheerio模块解析html
            let novels = {};
            novels.img = $(".book-information .book-img img").attr('src');
            novels.name = $(".book-information .book-info h1 em").html();
            novels.author = $(".book-information .book-info .writer").html();
            let wordsNum = $(".book-information .book-info p em").eq(0).html();
            novels.wordsNum = parseInt(wordsNum) * 10000;
            novels.summary = $('.book-intro p').text();
            cb(null, novels);
        }).catch(function (err) {
            cb(new Error(err.message), null);
        })
    }
}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 网络爬虫开发 第1章 课程介绍 什么是爬虫 爬虫的意义 课程内容 前置知识 什么是爬虫 可以把互联网比做成一张“大...
    强某某阅读 4,168评论 0 1
  • 前言 爬虫一直是软件工程师里看起来比较神秘高深的一门学问,它让人们想起黑客,以及SEO等等。目前市面上也有专门的爬...
    南宫__阅读 4,276评论 0 11
  • 我一直觉得,爬虫是许多web开发人员难以回避的点。我们也应该或多或少的去接触这方面,因为可以从爬虫中学习到web开...
    栀子花_ef39阅读 4,394评论 0 2
  • 声明:所有文章都是转载整理的,只是为了自己学习,方便自己观看,如有侵权,请立即联系我,谢谢~ Node.js的学习...
    是河兔兔啊阅读 4,657评论 0 0
  • 上篇文章介绍了爬虫的基本概念和基本原理,这篇开始我们一起来看看具体如何从网页中爬取自己想要的数据。 在下面爬虫的栗...
    特慈阅读 2,515评论 0 0

友情链接更多精彩内容