Python爬虫实战--爬取一个小说网站

前言

  夜里是最难受的时候,安静,睡不着,这可怎么办?老难受了,突然想到之前的聊斋志异,我所接触的最早的鬼故事!于是,手机网翻遍了都是只能在线看,不能下载。特别是这个网--汉扬居 (网站暂时不能进了),只要我一下载就给我报个网页找不到的异常,我试了三个浏览器都是这样!这我就不服了!

  咱是个讲道理的人,既然你不让我好好下载,那我就不下载呗。看看他的robots.txt
长这样子

  我看这个网的所有东西和这个robots.txt没关系,还有
这个

更加激起了我想搞它的想法。

  咱不多说,搞它就对了!


开搞

  1. 思路:

    1.1 找一个小说,看network的XHR
    空空如也
    。这就说明这个网站没想后端发请求。

1.2 看看源码
这个的源码
在这里

说明数据是直接加载到网页上了

1.3 那么就从主页找起 http://www.bjhanyang.com/这个路径;找它下面的所有分类;每一个分类下的所有书;每本书下的所有章节。

  1. 基础配置
    2.1 先导入库
import requests as req
from bs4 import BeautifulSoup as bs
import re, os, uuid

2.2 写一个主方法,专门用来请求的,因为是直接通过浏览器的地址访问的,所以发的都还是get请求,并使用UA伪装

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36"
}

base_url = "http://www.bjhanyang.com/"

def base_fun(url):
    get = req.get(url=url, headers=headers)
    # get.encoding = get.apparent_encoding
    return bs(get.text, "lxml")
  1. 找所有分类并获取每一个分类下的所有的页号地址
    3.1 通过 http://www.bjhanyang.com/ 找到所有的分类
      a.
    分类
    源码

    这里面有地址和分类名

3.2 获取box下所有的a

html = base_fun(url)
select = html.select(".box > a")

3.3 所有的分类网页都是有一个更多xx小说

这样
,所以点进去,你会发现路径变了
路径
,这个路径就是每一个分类的真实地址。把找到的所有的a中的地址都给拼成这样的
分类
推理也是这样

3.4 在每一个分类的下面都会发现这个东西
分页

3.5 换一下页会发现第一又变了
地址

3.6 那就拿到这两个东西

找分页
拿到这个总的分页用for遍历,就可以拿到这分类下的所有的分类页号地址

  1. 拿到每一个分类下的所有页号下的所有书地址
    4.1 检查http://www.bjhanyang.com/tuili/shuku_399_2.html这个网址下的书
    image.png

4.2 使用css选择器获取ul_m_list下所有的li下第二个diva里的东西

html = base_fun(url)
li_s = html.select(".ul_m_list > li")
for i in range(len(li_s)):
     title = li_s[i].find("div", class_="title").find("div", class_="t").find("a")
     book_name = title.get("title")

4.3 拼接每一本书的真实地址

  1. 通过每一本书的真实地址获取那本书的所有章节地址,并通过章节地址获取每一章的具体内容

    5.1 通过每一本书的真实地址获取那本书的书名,作者,总字数,状态,最新章节简介
html = base_fun(url)
book = html.select(".j_box > .title ")[0]
book_name = book.select("h2")[0]  # 书名
category_name = html.select("div.j_box > div.info > ul > li.lb > a")[0].text  # 分类
book_author = html.select(".info > ul > li:nth-child(1)")[0].text.split(":")[1]  # 作者 
book_total_num = html.select("#cms_ready_1")[0].text  # 总字数
book_statue = html.select(".info > ul > li.wj")[0].text.split(":")[1]  # 状态
book_new_chapter = html.select("div.j_box > div.words > a")[0].text.strip()  # 新章节
book_intro = html.select("div.j_box > div.words > p")[0].text.strip()  # 简介

5.2 址获取那本书的所有的章节地址
li_s = html.select(".list_box > ul > li")
    for i in range(len(li_s)):
        href = li_s[i].find("a").get("href")
        title = li_s[i].find("a").get("title")

5.3 通过章节地址获取章节内容


html = base_fun(url)
text = html.select(".box_box")[0].select("div")
  1. 由于没有用多线程,我写这个博客用了2小时,但程序还在跑
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,793评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,567评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,342评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,825评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,814评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,680评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,033评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,687评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,175评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,668评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,775评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,419评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,020评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,206评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,092评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,510评论 2 343

推荐阅读更多精彩内容