前言

夜里是最难受的时候，安静，睡不着，这可怎么办？老难受了，突然想到之前的聊斋志异，我所接触的最早的鬼故事！于是，手机网翻遍了都是只能在线看，不能下载。特别是这个网--汉扬居 (网站暂时不能进了)，只要我一下载就给我报个网页找不到的异常,我试了三个浏览器都是这样！这我就不服了！

咱是个讲道理的人，既然你不让我好好下载，那我就不下载呗。看看他的robots.txt

长这样子

我看这个网的所有东西和这个robots.txt没关系，还有

这个

更加激起了我想搞它的想法。

咱不多说，搞它就对了！

开搞

思路：

1.1 找一个小说，看network的XHR

空空如也

。这就说明这个网站没想后端发请求。

1.2 看看源码

这个的源码

在这里

说明数据是直接加载到网页上了

1.3 那么就从主页找起 http://www.bjhanyang.com/这个路径；找它下面的所有分类；每一个分类下的所有书；每本书下的所有章节。

基础配置
2.1 先导入库

import requests as req
from bs4 import BeautifulSoup as bs
import re, os, uuid

2.2 写一个主方法，专门用来请求的，因为是直接通过浏览器的地址访问的，所以发的都还是get请求，并使用UA伪装

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36"
}

base_url = "http://www.bjhanyang.com/"

def base_fun(url):
    get = req.get(url=url, headers=headers)
    # get.encoding = get.apparent_encoding
    return bs(get.text, "lxml")

找所有分类并获取每一个分类下的所有的页号地址
3.1 通过 http://www.bjhanyang.com/ 找到所有的分类
a.

分类

源码

这里面有地址和分类名

3.2 获取box下所有的a

html = base_fun(url)
select = html.select(".box > a")

3.3 所有的分类网页都是有一个更多xx小说

这样

，所以点进去，你会发现路径变了

路径

，这个路径就是每一个分类的真实地址。把找到的所有的a中的地址都给拼成这样的

分类

推理也是这样

3.4 在每一个分类的下面都会发现这个东西

分页

3.5 换一下页会发现第一又变了

地址

3.6 那就拿到这两个东西

找分页

拿到这个总的分页用for遍历，就可以拿到这分类下的所有的分类页号地址

拿到每一个分类下的所有页号下的所有书地址
4.1 检查http://www.bjhanyang.com/tuili/shuku_399_2.html这个网址下的书

image.png

4.2 使用css选择器获取ul_m_list下所有的li下第二个div下a里的东西

html = base_fun(url)
li_s = html.select(".ul_m_list > li")
for i in range(len(li_s)):
     title = li_s[i].find("div", class_="title").find("div", class_="t").find("a")
     book_name = title.get("title")

4.3 拼接每一本书的真实地址

通过每一本书的真实地址获取那本书的所有章节地址，并通过章节地址获取每一章的具体内容

5.1 通过每一本书的真实地址获取那本书的书名，作者，总字数，状态，最新章节简介

html = base_fun(url)
book = html.select(".j_box > .title ")[0]
book_name = book.select("h2")[0]  # 书名
category_name = html.select("div.j_box > div.info > ul > li.lb > a")[0].text  # 分类
book_author = html.select(".info > ul > li:nth-child(1)")[0].text.split("：")[1]  # 作者 
book_total_num = html.select("#cms_ready_1")[0].text  # 总字数
book_statue = html.select(".info > ul > li.wj")[0].text.split("：")[1]  # 状态
book_new_chapter = html.select("div.j_box > div.words > a")[0].text.strip()  # 新章节
book_intro = html.select("div.j_box > div.words > p")[0].text.strip()  # 简介

5.2 址获取那本书的所有的章节地址

li_s = html.select(".list_box > ul > li")
    for i in range(len(li_s)):
        href = li_s[i].find("a").get("href")
        title = li_s[i].find("a").get("title")

5.3 通过章节地址获取章节内容

html = base_fun(url)
text = html.select(".box_box")[0].select("div")

由于没有用多线程，我写这个博客用了2小时，但程序还在跑

Python爬虫实战--爬取一个小说网站

Python爬虫实战--爬取一个小说网站

前言

开搞

推荐阅读更多精彩内容