2020-03-16 起点中文网小说列表与内容爬取

SCRAPY获取起点中文网小说免费章节

创建项目

scrapy startproject qidian
cd qidian
scrapy genspider spider qidian.com

需求分析

  1. 找到要爬取的小说地址
  2. 发送请求,清洗并存储数据
  3. 写入本地文件

配置参数

item参数设置

  1. 书名-name
  2. 章节名-chapter_name
  3. 作者-author
  4. 标签-tag
  5. 章节内容-text
  6. 章节内容碎片-text_list

setting参数设置

配置管道PIPELINE

ITEM_PIPELINES

运行日志只输出‘WARNING’级别以上的通知

LOG_LEVEL ='WARNING'

请求页面并存储数据(主程序)

  1. 确定要爬取的网页范围和起点:
name ='spider'
allowed_domains = ['qidian.com']
start_urls = ['http://qidian.com/']
item = QidianItem()
  1. 获取要爬取的小说详情页地址
def parse(self, response):
    url_list = response.xpath('/html/body/div[1]/div[7]/div[1]/div/ul/li[1]/strong/a/@href').extract()
for urlin url_list:
    yield scrapy.Request(
                url='https:'+url,
                meta={'item': self.item},
                callback=self.parse_one
    )
  1. 获取小说信息与小说第一章的地址
def parse_one(self, response):
    item = response.meta['item']
    item['text'] = []
    item['chapter_name'] = []
    item['name'] = response.xpath('/html/body/div/div[6]/div[1]/div[2]/h1/em/text()').extract_first()
    chapter_list = response.xpath('//*[@id="j-catalogWrap"]/div[2]/div/ul/li/a/@href').extract()
    yield scrapy.Request(
            url='https:' + chapter_list[0],
            meta={'item': self.item},
            callback=self.parse_two
      )
  1. 获得每章内容,获取下一章的地址并判断是否VIP页(避免因为多线程导致章节乱序)
def parse_two(self, response):
    item = response.meta['item']
    item['text_list'] = response.xpath('//*[@class="read-content j_readContent"]/p/text()').extract()
    item['chapter_name'].append(response.xpath('//*[@class="j_chapterName"]/span/text()').extract_first())
    url = response.xpath('//*[@id="j_chapterNext"]/@href').extract_first()
    nextChapterVip = re.findall(r'g_data.nextChapterVip = (\d);', response.text)[0]
    nextId = re.findall(r'nextId :(.*?),', response.text)[0]
    item['text'].append(' \n\n'.join(item['text_list']))
    if nextChapterVip =='0' and nextId !='-1':
         yield scrapy.Request(
                url='https:' + url,
                meta={'item': self.item},
                callback=self.parse_two
         )
    else:
          yield item

下载到本地文件

利用管道pipeline完成最后的写入

with open(file='{}.txt'.format(item['name']), mode='a', encoding='utf-8')as f:
    for iin range(len(item['chapter_name'])):
        f.write(item['chapter_name'][i])
        f.write('\n' *2)
        f.write(item['text'][i])
     f.close()

过程中遇到的问题

  1. 多线程导致爬取的章节乱序
    放弃多线程爬取同一本小说,改为每次爬完一章内容再获取下一章地址,保证内容的存储顺序是正确的
  2. 相对网址无效
Missing schemein request url
  1. 手动修改成绝对地址,如在网址前加上域名
  2. urljoin函数
    response.urljoin(url)
    

练习目标

熟悉html语言与xpath用法

熟悉scrapy参数与各文件的作用

熟悉request与response的形式

熟悉如何从网页源中寻找所需要的文件/地址

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容

  • 就像漫山遍野的草一样活着。 我一直不敢看《活着》这本书。这书名好深沉,有分量,沉重的这...
    在云边_c5d3阅读 125评论 0 0
  • 邹晨 今日计划汇报 今日任务完成度 5/6 1.问题反思 今天赖床起不来,所以没有完成锻炼的任务,不过晚上去外婆...
    努力成长的小晨阅读 145评论 0 0
  • 谁家的祠堂 威严地矗立在坡头 被踢门的寡妇 跪在门口 等待着审判 以死人的名义 借着活人的手 围观者一边哂笑 一边...
    山城弦月阅读 253评论 0 0
  • 不知道是不是做了深蹲的缘故,臀部和大腿肌肉都有点不适。今天还是早点休息吧!从另一方面也可以说运动奏效了!坚持...
    柯晓芃阅读 95评论 0 2