29.selenium多页抓取，并保存到三大主流数据库

在上一篇中使用scrapy-splash抓取了单页js加载的信息，只抓取一页对爬虫来说简直是高射炮打蚊子。本篇将抛却fiddler奇淫巧技，通过最基础的方式研究如何抓取多页信息。

这样一个网页，看着很简单，但它下面的网页跳转与网址无任何关系，点击网页跳转，网址岿然不动。如果不加载js，连下面的网页跳转都没有。哭戚戚。

先在pycharm中新建个文件作为练习。
爬取一页的代码如下：

# coding:utf-8
from selenium import webdriver
from scrapy.selector import Selector

url = "http://www.zjzfcg.gov.cn/purchaseNotice/index.html?categoryId=3001"
driver = webdriver.Chrome()
driver.get(url)
data = driver.page_source
response = Selector(text=data)  # 这里如果不使用"text=data",直接写data将会报错 'str' object has no attribute 'text'
infodata = response.css(".items p")
for infoline in infodata:
    city = infoline.css(".warning::text").extract()[0].replace("[", "").replace("·", "").strip()
    issuescate = infoline.css(".warning .limit::text").extract()[0]
    title = infoline.css("a .underline::text").extract()[0].replace("]", "")
    publish_date = infoline.css(".time::text").extract()[0].replace("[", "").replace("]", "")
    print(city+"--"+title+"--"+issuescate+"--"+publish_date)
driver.close()

抓到的信息如下：

那现在可以考虑翻页的事情了。
可以使用webdriver的find_element_by_css_selector定位到元素，然后使用click方法实现点击，OK，做个小测试：

# -*- coding: utf-8 -*-
# @AuThor  : frank_lee

from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
import time


class ZfCaigou():
    """
    """
    def __init__(self):
        super(ZfCaigou, self).__init__()
        # 实际地址
        self.url = 'http://www.zjzfcg.gov.cn/purchaseNotice/index.html?categoryId=3001'
        self.driver = webdriver.Chrome()
        self.wait = WebDriverWait(self.driver, 30)  # 设置超时时间
        self.zoom = 1

    def open(self):
        self.driver.get(self.url)
        self.driver.maximize_window()
        time.sleep(5)
        i = 0
        while i < 8:
            self.driver.find_element_by_css_selector('div.paginationjs-pages > ul > li.paginationjs-next.J-paginationjs-next a').click()
            i += 1

        time.sleep(3)


if __name__ == '__main__':
    z = ZfCaigou()
    z.open()

这样做的确可以实现动态页面的加载。

那怎样实现页面跳转后的信息加载呢？
整合上面对的两者的代码即可，将第一个练习的代码加到第二个练习的while后面就可以实现了

# -*- coding: utf-8 -*-
# @AuThor  : frank_lee

from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
import time
from scrapy.selector import Selector


class ZfCaigou():
    """
    """
    def __init__(self):
        self.url = 'http://www.zjzfcg.gov.cn/purchaseNotice/index.html?categoryId=3001'
        self.driver = webdriver.Chrome()
        self.wait = WebDriverWait(self.driver, 30)  # 设置超时时间
        self.zoom = 1

    def get_info(self):
        self.driver.get(self.url)
        self.driver.maximize_window()
        time.sleep(5)
        i = 0
        while i < 8:  #这里的页数随意设置，也可以定义一个total_page，然后在这里用self.total_page调用
            time.sleep(2)
            data = self.driver.page_source
            response = Selector(text=data)  # 这里如果不使用"text=data",直接写data将会报错 'str' object has no attribute 'text'
            infodata = response.css(".items p")
            for infoline in infodata:
                city = infoline.css(".warning::text").extract()[0].replace("[", "").replace("·", "").strip()
                issuescate = infoline.css(".warning .limit::text").extract()[0]
                title = infoline.css("a .underline::text").extract()[0].replace("]", "")
                publish_date = infoline.css(".time::text").extract()[0].replace("[", "").replace("]", "")
                print(city + "--" + title + "--" + issuescate + "--" + publish_date)
            self.driver.find_element_by_css_selector(
                'div.paginationjs-pages > ul > li.paginationjs-next.J-paginationjs-next a').click()
            i += 1
            time.sleep(3)
        time.sleep(3)
        self.driver.close()


if __name__ == '__main__':
    z = ZfCaigou()
    z.get_info()

自己想要的信息已抓取到，接下来将其保存到数据库。

1.保存到MongoDB数据库

在初始化函数中加入：

# 以下保存到MongoDB数据库，不想要可以删掉
self.client = pymongo.MongoClient(host="localhost", port=27017)
self.db = self.client['zfcaigou']
# MongoDB部分结束

在get_info函数for语句中加入：

# 为保存到MongoDB做的处理，不想保存可以删掉
result = {
    "city": city,
    "issuescate": issuescate,
    "title": title,
    "publish_date": publish_date,
}
self.save_to_mongo(result)
# 结束

再写一个自定义函数：

def save_to_mongo(self, result):
    if self.db['caigou'].insert(result):
        print("保存成功啦，嘻嘻")

超简单有木有，然后看着满满的“保存成功”，开心！

2.保存到mysql数据库

在初始化函数中加入：

# 以下保存到Mysql数据库，不想要可以删掉
self.db = pymysql.connect("localhost", "root", "", "test")
self.cursor = self.db.cursor()
# 创建一个表
sql = """create table  caigou (
  city varchar(30) not null ,
  issuescate varchar(30) not null,
  title varchar(200) not null,
  publish_date varchar(50) not null
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
"""
try:
    # 执行sql语句
    self.cursor.execute(sql)
    # 提交到数据库执行
    self.db.commit()
except:
    # 如果发生错误则回滚
    self.db.rollback()
# mysql部分结束

在get_info函数for语句中加入：

# 保存到mysql数据库的操作，可选
insert_sql = """
    insert into caigou(city, issuescate, title, publish_date) values(%s, %s, %s, %s);
    """
result = {
    "city": city,
    "issuescate": issuescate,
    "title": title,
    "publish_date": publish_date
}
try:
    # 执行sql语句
    self.cursor.execute(insert_sql, (result["city"], result["issuescate"], result["title"], result["publish_date"]))
    # 提交到数据库执行
    self.db.commit()
except:
    # 如果发生错误则回滚
    self.db.rollback()

这样只要能连接到mysql，一切都自动化了，以前保守的做法是在本地建表，python代码写sql插入语句，此次练习增加了建表语句。

数据插入成功，(#^^.^#)。

3.保存到redis数据库

在初始化函数中加入：

self.pool = redis.ConnectionPool(host='localhost', port=6379)  
self.myredis = redis.Redis(connection_pool=self.pool)
self.keyName = 'ZfCaigou'

在for循环中加入：

self.myredis.lpush(self.keyName, json.dumps(result))

需要注意的是，以上想要保存数据到某个数据库，需要首先打开对应的服务器。或者对应的可视化工具能够连接上，然后才能指望数据能够成功保存。

详细代码请参考：https://github.com/hfxjd9527/caigou

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,544评论 6赞 501
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,430评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,764评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,193评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,216评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,182评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,063评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,917评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,329评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,543评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,722评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,425评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,019评论 3赞 326
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,671评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,825评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,729评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,614评论 2赞 353

29.selenium多页抓取，并保存到三大主流数据库

自己想要的信息已抓取到，接下来将其保存到数据库。

1.保存到MongoDB数据库

2.保存到mysql数据库

3.保存到redis数据库

推荐阅读更多精彩内容