allitebooks书本信息爬取

一. allitebooks网站链接：http://www.allitebooks.com/

二. 具体流程

allitebooks的网页以翻页的形式展现下一页的书籍信息，通过对链接的比较，发现url的规律："http://www.allitebooks.com/page/{}/".format(index)，其中index表示页码，可以根据这个规则决定爬取多个网页的数据；
根据url去请求网页数据，并返回指定编码‘utf-8’的网页数据，用户下一步的网页数据的解析；
对网页数据进行解析，本文用xpath和beautifulsoup的方法都实现了，获取的信息有书名、作者、书详情链接、简介，保存到一个list中，用于后续的数据保存；

网页解析
将解析完成的数据保存到csv中。
代码如下：

# -*- coding: utf-8 -*-

import requests
from lxml import etree
import csv
from bs4 import BeautifulSoup
import time

class BookSpider(object):
    def __init__(self):
        # 初始化数据，请求的url,headers和保存最终结果的result变量
        # 页面是翻页加载数据的，翻页的链接规则是www.allitebooks.com/page/n/  ,其中n表示第n页的数据
        self.url = "http://www.allitebooks.com/page/{}/"
        self.headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
        # 需要爬取的信息有书名book_name，作者author，书的详情链接url和书的简介summary
        self.result = [['book_name', 'author', 'url', 'summary']]

    # 获取需要请求的url，返回一个List的url去请求相关页面的数据
    def get_url_list(self):
        url_list = []
        for index in range(1,8):
            url_list.append((self.url).format(index))
        return url_list

    # 根据给到的url去请求相关页面的数据
    def get_data(self, url):
        response = requests.get(url=url, headers=self.headers)
        return response.content.decode('utf-8')

    # 使用xpath对请求的数据进行解析
    def parse_data_xpath(self, data):
        xpath_data = etree.HTML(data)
        # 获取包含了书名、作者、链接、简介的模块列表，对列表进行遍历，获取相关的信息
        articles = xpath_data.xpath('//div[@class="entry-body"]')
        for article in articles:
            article_list = []
            # 获取书名
            book_name = article.xpath('.//h2/a/text()')[0]
            # 获取作者
            author = article.xpath('.//h5[@class="entry-author"]/a/text()')[0]
            # 获取书的详情链接
            url = article.xpath('.//h2/a/@href')[0]
            # 获取书的简介
            summary = article.xpath('./div[@class="entry-summary"]/p/text()')[0]
            # 组合成一个list，添加到成员变量result中，用于最后的csv保存
            article_list = [book_name, author, url, summary]
            self.result.append(article_list)

    # 使用BeautifulSoup对请求的数据进行解析
    def parse_data_bs4(self, data):
        bs4_data = BeautifulSoup(data, 'lxml')
        # 获取包含了书名、作者、链接、简介的模块列表，对列表进行遍历，获取相关的信息
        articles = bs4_data.select('.entry-body')
        for article in articles:
            article_list=[]
            book_name = article.select('.entry-title a')[0].get_text()
            author = article.select('.entry-author a')[0].get_text()
            url = article.select('.entry-title a')[0].get('href')
            summary = article.select('.entry-summary p')[0].get_text()
            article_list = [book_name, author, url, summary]
            self.result.append(article_list)
        print(len(self.result))

    # 使用csv的方式保存result中的数据
    def save_data(self):
        # 需要指定encoding='utf-8',不然会有编码报错(windows专属哈哈）
        # 因为是使用的python3版本，所以需要newline='',不指定的话保存的csv中，每行后面都会有个空行
        book_fp = open("book_info.csv", 'w', newline='', encoding='utf-8')
        writer = csv.writer(book_fp)
        writer.writerows(self.result)

        book_fp.close()
        
    # 执行数据爬取和保存的操作：获取需要爬取的网页的链接-->根据链接获取网页数据-->对网页数据进行解析-->保存解析后的数据
    def run(self):
        # 获取需要爬去数据的url
        url_list = self.get_url_list()
        for url in url_list:
            # 获取网页数据
            data = self.get_data(url)
            # 对网页数据进行解析，可以使用xpath的parse_data_xpath()或者BeautifulSoup的parse_data_bs4进行解析，获取相关数据
            self.parse_data_bs4(data)
            # 休眠1秒
            time.sleep(1)
        # 保存爬去的数据
        self.save_data()

BookSpider().run()

结果：

实验结果

三.遇到的问题

保存的csv文件中多了一行空行

保存的csv文件中多了一行空行

在windows这种使用\r\n的系统里，不用newline=‘’的话，会自动在行尾多添加个\r，导致多出一个空行，即行尾为\r\r\n
参考链接：https://blog.csdn.net/pfm685757/article/details/47806469

解决方法：在打开的文件流中添加newline=''，如：book_fp = open("book_info.csv", 'w', newline='', encoding='utf-8')

保存数据到csv时遇到UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 444: illegal multibyte sequence的报错

在window平台，文件的默认编码是gbk，此时如果写入的字符串的编码是utf-8，则会引发编码报错
参考链接：http://www.itdaan.com/blog/2018/04/19/cef6ddb3809354ac175c64c228fe51fb.html

解决方法：指定编码格式encoding='utf-8'的情况下打开写入流：book_fp = open("book_info.csv", 'w', newline='', encoding='utf-8')

summary的文本数据过长，通过Excel 打开csv的时候，数据显示在一个单元格上

数据显示在一个单元格上

参考链接：https://blog.csdn.net/caolaosanahnu/article/details/7351776
解决方法：目前来看应该是excel打开csv时会有的格式的问题，暂时不是很清楚为什么会出现这个问题，但是将csv文件用记事本的方式打开之后，另存为时选择utf-8的编码格式，再打开另存为的文件，是可以看到整齐的数据的。

代码链接：https://github.com/zhuyecao/kaikeba/tree/master/kaikeba/allitebook

allitebooks书本信息爬取

推荐阅读更多精彩内容