allitebooks书本信息爬取

一. allitebooks网站链接:http://www.allitebooks.com/

二. 具体流程

  1. allitebooks的网页以翻页的形式展现下一页的书籍信息,通过对链接的比较,发现url的规律:"http://www.allitebooks.com/page/{}/".format(index),其中index表示页码,可以根据这个规则决定爬取多个网页的数据;

  2. 根据url去请求网页数据,并返回指定编码‘utf-8’的网页数据,用户下一步的网页数据的解析;

  3. 对网页数据进行解析,本文用xpath和beautifulsoup的方法都实现了,获取的信息有书名、作者、书详情链接、简介,保存到一个list中,用于后续的数据保存;


    网页解析
  4. 将解析完成的数据保存到csv中。

  5. 代码如下:

# -*- coding: utf-8 -*-

import requests
from lxml import etree
import csv
from bs4 import BeautifulSoup
import time

class BookSpider(object):
    def __init__(self):
        # 初始化数据,请求的url,headers和保存最终结果的result变量
        # 页面是翻页加载数据的,翻页的链接规则是www.allitebooks.com/page/n/  ,其中n表示第n页的数据
        self.url = "http://www.allitebooks.com/page/{}/"
        self.headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
        # 需要爬取的信息有书名book_name,作者author,书的详情链接url和书的简介summary
        self.result = [['book_name', 'author', 'url', 'summary']]

    # 获取需要请求的url,返回一个List的url去请求相关页面的数据
    def get_url_list(self):
        url_list = []
        for index in range(1,8):
            url_list.append((self.url).format(index))
        return url_list

    # 根据给到的url去请求相关页面的数据
    def get_data(self, url):
        response = requests.get(url=url, headers=self.headers)
        return response.content.decode('utf-8')

    # 使用xpath对请求的数据进行解析
    def parse_data_xpath(self, data):
        xpath_data = etree.HTML(data)
        # 获取包含了书名、作者、链接、简介的模块列表,对列表进行遍历,获取相关的信息
        articles = xpath_data.xpath('//div[@class="entry-body"]')
        for article in articles:
            article_list = []
            # 获取书名
            book_name = article.xpath('.//h2/a/text()')[0]
            # 获取作者
            author = article.xpath('.//h5[@class="entry-author"]/a/text()')[0]
            # 获取书的详情链接
            url = article.xpath('.//h2/a/@href')[0]
            # 获取书的简介
            summary = article.xpath('./div[@class="entry-summary"]/p/text()')[0]
            # 组合成一个list,添加到成员变量result中,用于最后的csv保存
            article_list = [book_name, author, url, summary]
            self.result.append(article_list)

    # 使用BeautifulSoup对请求的数据进行解析
    def parse_data_bs4(self, data):
        bs4_data = BeautifulSoup(data, 'lxml')
        # 获取包含了书名、作者、链接、简介的模块列表,对列表进行遍历,获取相关的信息
        articles = bs4_data.select('.entry-body')
        for article in articles:
            article_list=[]
            book_name = article.select('.entry-title a')[0].get_text()
            author = article.select('.entry-author a')[0].get_text()
            url = article.select('.entry-title a')[0].get('href')
            summary = article.select('.entry-summary p')[0].get_text()
            article_list = [book_name, author, url, summary]
            self.result.append(article_list)
        print(len(self.result))

    # 使用csv的方式保存result中的数据
    def save_data(self):
        # 需要指定encoding='utf-8',不然会有编码报错(windows专属哈哈)
        # 因为是使用的python3版本,所以需要newline='',不指定的话保存的csv中,每行后面都会有个空行
        book_fp = open("book_info.csv", 'w', newline='', encoding='utf-8')
        writer = csv.writer(book_fp)
        writer.writerows(self.result)

        book_fp.close()
        
    # 执行数据爬取和保存的操作:获取需要爬取的网页的链接-->根据链接获取网页数据-->对网页数据进行解析-->保存解析后的数据
    def run(self):
        # 获取需要爬去数据的url
        url_list = self.get_url_list()
        for url in url_list:
            # 获取网页数据
            data = self.get_data(url)
            # 对网页数据进行解析,可以使用xpath的parse_data_xpath()或者BeautifulSoup的parse_data_bs4进行解析,获取相关数据
            self.parse_data_bs4(data)
            # 休眠1秒
            time.sleep(1)
        # 保存爬去的数据
        self.save_data()

BookSpider().run()

结果:


实验结果

三.遇到的问题

  1. 保存的csv文件中多了一行空行


    保存的csv文件中多了一行空行

在windows这种使用\r\n的系统里,不用newline=‘’的话,会自动在行尾多添加个\r,导致多出一个空行,即行尾为\r\r\n
参考链接:https://blog.csdn.net/pfm685757/article/details/47806469

解决方法:在打开的文件流中添加newline='',如:book_fp = open("book_info.csv", 'w', newline='', encoding='utf-8')

  1. 保存数据到csv时遇到UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 444: illegal multibyte sequence的报错

在window平台,文件的默认编码是gbk, 此时如果写入的字符串的编码是utf-8,则会引发编码报错
参考链接:http://www.itdaan.com/blog/2018/04/19/cef6ddb3809354ac175c64c228fe51fb.html

解决方法:指定编码格式encoding='utf-8'的情况下打开写入流:book_fp = open("book_info.csv", 'w', newline='', encoding='utf-8')

  1. summary的文本数据过长,通过Excel 打开csv的时候,数据显示在一个单元格上
    数据显示在一个单元格上

    参考链接:https://blog.csdn.net/caolaosanahnu/article/details/7351776
    解决方法:目前来看应该是excel打开csv时会有的格式的问题,暂时不是很清楚为什么会出现这个问题,但是将csv文件用记事本的方式打开之后,另存为时选择utf-8的编码格式,再打开另存为的文件,是可以看到整齐的数据的。

代码链接:https://github.com/zhuyecao/kaikeba/tree/master/kaikeba/allitebook

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Python 面向对象Python从设计之初就已经是一门面向对象的语言,正因为如此,在Python中创建一个类和对...
    顺毛阅读 4,239评论 4 16
  • 一、Python简介和环境搭建以及pip的安装 4课时实验课主要内容 【Python简介】: Python 是一个...
    _小老虎_阅读 5,822评论 0 10
  • 2018年6月14号 星期四 晴 昨天在家休息了一天,却感觉很累。休息比上班还累,这几年似乎休...
    华春秋阅读 2,286评论 0 4
  • 无意翻出一张老照片:我坐在床上,背后挂着没有完成的水粉静物。 很多年没有画画了,我贴近了去看那张我的第一张水粉画,...
    且听风眠阅读 1,238评论 7 17
  • 在我的印象里 杭州是一个多面孔的一个城市 晴天的杭州很精致,下雨的杭州很性感,而下雪的杭州则很清丽。所以,人一旦在...
    陈龙longc阅读 754评论 10 8