一个简单小爬虫实现对全本小说的下载

  这几天看见有许多分享用python爬虫获取小说的文章,弄得我自己也手痒了,于是就写了个小爬虫,基本能实现分析下载小说以.TXT格式下载到本地的功能。只是关于文本格式以及网页防吊死的问题暂时没有处理,本文主要是给想爬小说的小伙伴们一个思路,当然,源代码也在文章最后,随时都可以跑起来。

一.python环境及编辑器(用到的库和模块)

运行平台: win7

Python版本: Python3.x 

IDE: pycharm 

模块:Beautiful Soup,urllib

由于本文主要是实战展示,所以就没有对于库和模块的安装,讲解。具体使用方法可以看官方文档,安装过程有需要可以留下评论。我这里就只附上我看过后感觉写的不错的文档链接,大家可以自行查询:

Beautiful Soup:‘https://cuiqingcai.com/1319.html’

urllib:‘https://www.jianshu.com/p/63dad93d7000’

二.确定目标

因为某阁是个盗版小说网站,而且我发现这个网站没有反爬虫的机制,所以对新手爬友比较友好,所以我就以这个网站作为实战示范。

笔趣阁主页url:‘https://www.biquge.cm/’

不知道大家平时喜欢看谁的小说,我从中学就喜欢看西红柿大大的小说,所以这次就以爬取大大的‘飞剑问道’这本小说作为目标。


通过地址栏我们可以获得这个目录页面的url:https://www.biquge.cm/10/10963/,下面我们就可以开始分析该网站的HTML结构,想办法取出我们想要获得内容。

三.过程分析

解析工具有很多,爬取方式也有很多,我这里就简单说下我自己的思路。

1.通过目录页面获得小说所有章节的链接地址。

2.通过第一步获得的链接地址,爬取每一章节的正文内容。

3.把爬取到的正文保存在TXT文档,并下载到本地。

我的大致思路就是这个样子,你们也可以选择其他方式获取每一章节的url地址,比如使用selenium,或者用开发者工具找到下一页的标签再提取。不管黑猫白猫,能抓到耗子就是好猫,所以编程是一件有趣的事情,通过不同的方法可以达到同样的目的。好了,闲话不多说,大致思路有了之后,我们就开始代码实现。

四.代码实现

第一步,先引用我们需要用到的模块和库,美味汤和urllib。


第二步,我们定义一个函数模块,用来获得页面原始数据。



第三步,我们定义一个专门分析页面的函数,用来反复调取。这个解析器就是我们的美味汤(Beautiful Soup),完成这一步后,前期的基础工作就算搞定了,这样我们就能分析每个页面的数据了。


第四步,我们正式开始分析小说,还记得我们最开始的思路吗,第一步,先获取每一章小说的链接。打开开发者工具(F12或者右键检查),用选择工具随便点几个章节目录,发现他们都在  <div id="list">这个父级标签下.


我们使用Ctrl+F查找这个标签,发现在目录页,这个标签是唯一的,所以我们获得如下信息。1.所以章节链接都在<div id="list">标签下 2.标签属性id=‘list’是唯一的,通过这个属性,我们就能得到所有章节链接。



那我们只需要红圈内的地址,如何提取呢?这里可以使用正则表达式,或者seleck方法,但我这里直接选择了find的方法,简单粗暴好理解。经过观察分析我们得知,这里的地址是每个章节url的后半部分,所以我们需要对其进行拼接才能得到真实的url,所以代码如下


第5步,定义获取每一章小说正文的函数,用同样的方法分析获得每一章小说的正文,我们发现正文在<div id="content">标签下,且属性也是唯一的。


这里可以对文本格式进行处理,但是我为了快速实现功能就没有搞这些。大家后续可以在我这个基础上优化代码,我这里就不做过多解释了,所以代码如下。


第6步,定义一个函数下载并保存我们的小说,这里比较简单,直接上代码


第7步,运行部分代码


第8步,点击运行就OK了,附一张运行的图



按照以上操作步骤,代码基本就实现了,注意我这里没有定义保存路径,所以默认保存在当前文件夹,需要注意。最好把源码分享给大家。拿去跑一跑吧。


import urllib,bs4

from bs4 import BeautifulSoup

#引入模块和库

#获取页面初始数据

def getHtmlcode(url):

    #请求头,虽然这个网站不需要,但是这算是反反爬虫的一种最基本手段

    user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"

    headers = {"User-Agent": user_agent}

    response=urllib.request.Request(url,headers=headers)#发起请求

    result=urllib.request.urlopen(response)#打开页面

    html=result.read()#读取页面

    return html  #返回页面信息

#分析页面

def paarser(url):

    html=getHtmlcode(url)#调用getHtmlcode函数

    soup=BeautifulSoup(html,'html.parser')#用美味汤分析,得到bs文件

    return soup

#获取每章节目录链接

def Charpter_url(url):

    soup=paarser(url)#调用parser分析页面

    datas=soup.find('div',id="list").find_all('a')#获得需要的数据

    url_list=[]#新建列表用来储存url地址

    for data in datas:

        page_url='https://www.biquge.cm'+data['href']#拼接成真实地址

        page_name=data.text#每一章的小说名字

        url_list.append(page_url)

    return url_list

#获取文章单章正文

def get_Charpter_text(url):

    soup=paarser(url)#调用parser分析页面

    content=soup.find('div',id="content").text#获得需要的正文

    content1=content.strip().replace("<br />", "")#顺手处理下格式问题

    return content

#保存文件

def save_text(url):

    url_list=Charpter_url(url)

    num=1

    with open('飞剑问道.text','a',encoding='utf-8') as f:

        for page_url in url_list:

            contents=get_Charpter_text(page_url)

            f.write(contents)

            print('第{}章下载完成'.format(num))

            num+=1

        f.close()

if __name__=='__main__':

    url='https://www.biquge.cm/10/10963/'

    save_text(url)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,240评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,328评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,182评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,121评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,135评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,093评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,013评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,854评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,295评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,513评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,398评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,989评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,636评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,657评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352