爬取起点中文网的免费图书

爬取起点中文网的免费图书


17553828-c507eef2269e4b24.png
import requests, os
from multiprocessing import Pool
from bs4 import BeautifulSoup


class QidianSpider:
    # 初始化
    def __init__(self, pages, url, localPath):
        self.pages = pages
        self.url = url
        self.localPath = localPath
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1',
            'Connection': 'close'
        }

    # 一页一页的下载图书,每页有20本
    def download_book(self):
        self.create_folder()
        for i in range(self.pages):
            param = {
                "orderId": '',
                "vip": 'hidden',
                "style": 1,
                'pageSize': 20,
                "siteid": 1,
                "pubflag": 0,
                "hiddenField": 1,
                "page": i + 1
            }
            try:
                # 访问每页获取的数据
                data_responses = self.get_responses(param)
                # 从每页结果中获取所有图书信息,后面根据ID获取每本书的具体内容
                book_info_list = self.get_book_info(data_responses)
                # 多进程下载
                self.multiprocess_download(book_info_list, 10)
            except Exception as e:
                print(e)

    # 判断文件夹是否存在,不存在创建文件夹
    def create_folder(self):
        if not os.path.exists(self.localPath):
            try:
                os.makedirs(self.localPath)
            except Exception as e:
                raise (e)

    # 访问每页获取的数据
    def get_responses(self, param):
        try:
            data_responses = requests.get(self.url, params=param, headers=self.headers)
            return data_responses
        except Exception as e:
            print(e)

    # 从每页结果中获取图书信息,后面根据ID获取每本书的具体内容
    def get_book_info(self, data_responses):
        soup = BeautifulSoup(data_responses.text, 'lxml')
        book_info_raw = soup.select('div.book-mid-info')
        book_info_list = []
        for book_info_raw_single in book_info_raw:
            book_info_dict = dict()
            book_info_dict["title"] = book_info_raw_single.select('h4 > a')[0].get_text()
            book_info_dict["id"] = book_info_raw_single.select('h4 > a')[0].get('data-bid')
            book_info_dict['author'] = book_info_raw_single.select('.name')[0].get_text()
            book_info_list.append(book_info_dict)
        return book_info_list

    # 多进程下载
    def multiprocess_download(self, book_info_list, process):
        pool = Pool(process)
        for book_info_dict in book_info_list:
            pool.apply_async(self.download_one, (book_info_dict,))
        pool.close()
        pool.join()

    # 单个进程下,下载图书详细信息
    def download_one(self, book_info_dict):
        if os.path.exists(self.localPath + book_info_dict["title"]):
            print('exists:', self.localPath + book_info_dict["title"])
            return
        # 捕获异常
        try:
            book_catalog_responses = requests.get("https://book.qidian.com/info/%s#Catalog" % book_info_dict["id"],
                                                  timeout=10, headers=self.headers)
            if book_catalog_responses.status_code == 200:
                print("当前进程ID:{},图书信息:{}".format(os.getpid(), book_info_dict))
                self.get_book_catalog_url(book_catalog_responses, book_info_dict)
                self.save_book_content(book_info_dict)
        except Exception as e:
            print("异常:{}".format(book_info_dict), e)

    # 获取目录url
    def get_book_catalog_url(self, book_catalog_responses, book_info_dict):
        soup = BeautifulSoup(book_catalog_responses.text, 'html.parser')
        book_catalog_info_raw = soup.select('.volume-wrap li[data-rid] a[href]')
        book_catalog_url_list = []
        for book_catalog_info_raw_single in book_catalog_info_raw:
            book_catalog_url_list.append(book_catalog_info_raw_single['href'])
        book_info_dict['bookCatalogUrl'] = book_catalog_url_list

    # 获取图书内容并保存
    def save_book_content(self, book_info_dict):
        with open(self.localPath + '{}.txt'.format(book_info_dict["title"]), 'w', encoding='utf-8') as f:
            f.write(book_info_dict['title'] + '\n')
            f.write("作者:" + book_info_dict['author'] + '\n')
            for url in book_info_dict['bookCatalogUrl']:
                try:
                    book_content_responses = requests.get("https:" + url, headers=self.headers)
                    if book_content_responses.status_code == 200:
                        soup = BeautifulSoup(book_content_responses.text, 'html.parser')
                        book_catalog = soup.find('h3', attrs={'class': 'j_chapterName'}).get_text()
                        f.write('\n' + book_catalog + '\n')
                        book_content = soup.find('div', attrs={'class': "read-content j_readContent"})
                        f.write('\t' + book_content.get_text() + '\n')
                except Exception as e:
                    print('异常:{}章节获取失败'.format(book_info_dict['title']), e)


if __name__ == '__main__':
    spider = QidianSpider(100, 'https://www.qidian.com/free/all', 'E://book//')
    spider.download_book()

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 222,104评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,816评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,697评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,836评论 1 298
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,851评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,441评论 1 310
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,992评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,899评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,457评论 1 318
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,529评论 3 341
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,664评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,346评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 42,025评论 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,511评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,611评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 49,081评论 3 377
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,675评论 2 359