30行js爬取顶点全网任意小说

之前连续多篇文章介绍客户端爬取平台(dspider)，今天我们从零开始，实现爬取顶点小说网任意一本小说的功能。

如果你还不知道客户端爬取，可以先看下我的前几篇博客：

爬虫技术( 一) 一篇文章了解爬虫技术现状

爬虫技术(二) 客户端爬虫

爬虫技术(三)－客户端爬取Android SDK发布

客户端爬虫 ios sdk 发布了！

客户端爬取－答网友问

DSpider简介

集成sdk

dspider官方网站有详细的集成文档, 并提供了demo, 我们本节的示例基于该demo开始，请先下载相应平台的demo(github),下面是集成文档：

ios： https://dspider.dtworkroom.com/document/ios

android: https://dspider.dtworkroom.com/document/android

如何集成、爬取文章中很详细，下面我们主要看一下如何写爬取脚本

编写爬取脚本

分析网页

由于我们爬取的手机版网站，打开顶点小说主页 http://m.23us.com/ ，为了简单起见，我们在进入具体小说的目录页后就开始爬取。下面以《择天记》为例：
介绍页url:http://m.23us.com/book/52234
我们提取特征字符串“／book／”。
**目录页url: **http://m.23us.com/html/52/52234/
我们提取小说目录页url特征"html/数字／数字／"。

那么基本的爬取流程如下：

//我们将小说标题作为sessionKey
var sessionKey="小说标题"
dSpider(sessionKey, function(session,env,$){
    //在介绍页
    if(location.href.indexOf("/book/")!=-1){
       //添加爬取按钮
    }else if(/.+html\/\d+\/\d+\/$/.test(location.href)) {  
      //目录页自动开始爬取
    ｝
})

dSpider为脚本爬取的入口函数，类似于c里面的main函数，详细的请移步dspider javascript api文档。

介绍页添加爬取按钮

为了启动爬取，我们在介绍页添加一个爬取按钮，原来的介绍页如下：

介绍页.png

因为在进入目录页会自动爬取，所以我们只需要将进入章节目录的按钮文字变一下，同时为了醒目，背景换成绿色。

修改后的介绍页.png

具体代码：

$(".more a").text("爬取本书").css("background","#1ca72b");

目录页爬取

在目录页我们获取所有章节的url。
```
var list = $(".chapter li a");
```

然后通过ajax请求每一个url，获取数据并解析

 $.get(e.attr("href")).done(function (data) {
                //获取章节名
                var text = e.text().trim() + "\r\n";
                //获取正文，进行格式处理
                text+= $(data).find("#txt").html()
                       .replace(/&nbsp;/g,"  ").replace(/<br>/g,"\n")+"\r\n";
                //将数据传递给端
                session.push(text)
 })

在爬取的时候，我们输出进度消息给端，完整的代码如下：

var sessionKey=dQuery(".index_block h1").text()
dSpider(sessionKey, function(session,env,$){
    if(location.href.indexOf("/book/")!=-1){
        $(".more a").text("爬取本书").css("background","#1ca72b");
    }else if(/.+html\/\d+\/\d+\/$/.test(location.href)) {
        log(sessionKey)
        var list = $(".chapter li a");
        session.showProgress();
        session.setProgressMax(list.length);
        var curIndex = 0
        function getText() {
            var e = list.eq(list.length-curIndex-1);
            $.get(e.attr("href")).done(function (data) {
                var text = e.text().trim() + "\r\n";
                text+= $(data).find("#txt").html()
                    .replace(/&nbsp;/g," ").replace(/<br>/g,"\n")+"\r\n";
                session.push(text)
            }).always(function () {
                if (++curIndex < list.length) {
                    session.setProgress(curIndex);
                    session.setProgressMsg("正在爬取《"+sessionKey+"》 "+e.text())
                    getText();
                } else {
                    session.setProgress(curIndex);
                    session.finish();
                }
            })
        }
        getText()
    }
})

怎么样，简单强大吧！

我们看看运行效果：

Screenshot_20170330-165659.png

爬取成功后，我将数据保存在txt中，然后用qq阅读打开

正文

集成注意事项

下载的demo默认的包名是：wendu.dspiderdemo, appid是5，这是官方账号下的app。如果你要换包名，需要在后台先创建应用，创建好之后获得appid, 将sdk初始化时的appid换成你自己的appid，然后在爬虫商店找到“顶点小说”，然后将它添加到你的应用，这一步很重要，否则你的应用就没有执行该爬虫的权限。我们在“顶点小说”详情页获取其id(12),然后在demo中将sid换成12就可以了。爬取的结果可以自己拼接保存在txt中。

最后编辑于：2017.12.06 06:39:51

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,084评论 6赞 503
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,623评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,450评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,322评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,370评论 6赞 390
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,274评论 1赞 300
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,126评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,980评论 0赞 275
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,414评论 1赞 313
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,599评论 3赞 334
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,773评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,470评论 5赞 344
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,080评论 3赞 327
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,713评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,852评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,865评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,689评论 2赞 354