前言
夜里是最难受的时候,安静,睡不着,这可怎么办?老难受了,突然想到之前的聊斋志异,我所接触的最早的鬼故事!于是,手机网翻遍了都是只能在线看,不能下载。特别是这个网--汉扬居 (网站暂时不能进了),只要我一下载就给我报个网页找不到的异常,我试了三个浏览器都是这样!这我就不服了!
咱是个讲道理的人,既然你不让我好好下载,那我就不下载呗。看看他的robots.txt更加激起了我想搞它的想法。
咱不多说,搞它就对了!
开搞
-
思路:
1.1 找一个小说,看network的XHR
说明数据是直接加载到网页上了
1.3 那么就从主页找起 http://www.bjhanyang.com/
这个路径;找它下面的所有分类;每一个分类下的所有书;每本书下的所有章节。
- 基础配置
2.1 先导入库
import requests as req
from bs4 import BeautifulSoup as bs
import re, os, uuid
2.2 写一个主方法,专门用来请求的,因为是直接通过浏览器的地址访问的,所以发的都还是get
请求,并使用UA
伪装
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36"
}
base_url = "http://www.bjhanyang.com/"
def base_fun(url):
get = req.get(url=url, headers=headers)
# get.encoding = get.apparent_encoding
return bs(get.text, "lxml")
- 找所有分类并获取每一个分类下的所有的页号地址
3.1 通过http://www.bjhanyang.com/
找到所有的分类
a.
这里面有地址和分类名
3.2 获取box
下所有的a
html = base_fun(url)
select = html.select(".box > a")
3.3 所有的分类网页都是有一个更多xx小说
a
中的地址都给拼成这样的3.6 那就拿到这两个东西
for
遍历,就可以拿到这分类下的所有的分类页号地址
- 拿到每一个分类下的所有页号下的所有书地址
4.1 检查http://www.bjhanyang.com/tuili/shuku_399_2.html
这个网址下的书
4.2 使用css
选择器获取ul_m_list
下所有的li
下第二个div
下a
里的东西
html = base_fun(url)
li_s = html.select(".ul_m_list > li")
for i in range(len(li_s)):
title = li_s[i].find("div", class_="title").find("div", class_="t").find("a")
book_name = title.get("title")
4.3 拼接每一本书的真实地址
-
通过每一本书的真实地址获取那本书的所有章节地址,并通过章节地址获取每一章的具体内容
5.1 通过每一本书的真实地址获取那本书的书名,作者,总字数,状态,最新章节简介
html = base_fun(url)
book = html.select(".j_box > .title ")[0]
book_name = book.select("h2")[0] # 书名
category_name = html.select("div.j_box > div.info > ul > li.lb > a")[0].text # 分类
book_author = html.select(".info > ul > li:nth-child(1)")[0].text.split(":")[1] # 作者
book_total_num = html.select("#cms_ready_1")[0].text # 总字数
book_statue = html.select(".info > ul > li.wj")[0].text.split(":")[1] # 状态
book_new_chapter = html.select("div.j_box > div.words > a")[0].text.strip() # 新章节
book_intro = html.select("div.j_box > div.words > p")[0].text.strip() # 简介
5.2 址获取那本书的所有的章节地址li_s = html.select(".list_box > ul > li")
for i in range(len(li_s)):
href = li_s[i].find("a").get("href")
title = li_s[i].find("a").get("title")
5.3 通过章节地址获取章节内容
html = base_fun(url)
text = html.select(".box_box")[0].select("div")
-
由于没有用多线程,我写这个博客用了2小时,但程序还在跑