python金融大数据挖掘与分析(三)——Python与MySQL数据库交互

@[toc]

1. MySQL与python库准备

这里推荐使用一款Apache Web服务器、PHP解释器以及MySQL数据库的整合软件包——WampServer,其会自动将一些设置配置好,无需配置环境变量,而且能够使用MySQL的数据库管理平台phpMyAdmin,安装过程很简单,大家可以到下面的链接地址下载相应的软件即可。
WampServer下载地址https://sourceforge.net/projects/wampserver/files/WampServer%203/WampServer%203.0.0/

为了实现Python和MySQL数据库的交互,需要安装PyMySQL库。常规的安装方法,pip install pymysql

2. 用python连接数据库

通过以下代码就能实现数据库连接

import pymysql
db = pymysql.connect(host='localhost', port=3308, user='root', password='',
                         database='spider', charset='utf8')
# 其中spider为已创建的数据库名称
在这里插入图片描述

3. 用python存储数据到数据库

在python中模拟执行SQL语句需要首先引入一个会话指针cursor,只有这样才能调用SQL语句。之后编写SQL语句,并通过cursor的execute函数执行SQL语句。之后需要通过db.commit()函数来更新数据表,最后关闭之前引入的会话指针cur和数据库连接。

    cur = db.cursor()      # 获取会话指针,用来调用SQL语句
    sql = 'INSERT INTO test(company, title, href, date, source) VALUES (%s, %s, %s, %s, %s)'
    cur.execute(sql, (company, title, href, date, source))
    db.commit()
    
    cur.close()
    db.close()

上面的第三行代码中,第一个参数为SQL语句,第二个参数用来把具体的内容传递到各个%s的位置上。插入语句的整体代码如下所示:

    # 预定义参数
    company = '阿里巴巴'
    title = '测试标题'
    href = '测试链接'
    source = '测试来源'
    date = '测试时间'

    db = pymysql.connect(host='localhost', port=3308, user='root', password='',
                         database='spider', charset='utf8')

    cur = db.cursor()      # 获取会话指针,用来调用SQL语句
    sql = 'INSERT INTO test(company, title, href, date, source) VALUES (%s, %s, %s, %s, %s)'
    cur.execute(sql, (company, title, href, date, source))
    db.commit()

    cur.close()
    db.close()

4. 用python在数据库中查找并提取数据

这里的操作代码与数据插入的代码类似。

    db = pymysql.connect(host='localhost', port=3308, user='root', password='',
                         database='spider', charset='utf8')

    cur = db.cursor()      # 获取会话指针,用来调用SQL语句
    sql = 'SELECT * FROM `test` WHERE company = %s'
    cur.execute(sql, company)
    data = cur.fetchall()
    print(data)
    db.commit()

    cur.close()
    db.close()

这里的db.commit()操作可以省略,因为不涉及数据更新的操作。数据查询中最重要的操作是cur.fetchall(),提取所有数据,返回的结果为元组形式。

5. 用python从数据库中删除数据

操作类似,不再赘述。

    db = pymysql.connect(host='localhost', port=3308, user='root', password='',
                         database='spider', charset='utf8')

    cur = db.cursor()      # 获取会话指针,用来调用SQL语句
    sql = 'DELETE FROM `test` WHERE company = %s'
    cur.execute(sql, company)
    db.commit()

    cur.close()
    db.close()

6. 把金融数据存入数据库

这里结合本章内容和之前的内容(python金融大数据挖掘与分析(二)——新闻数据挖掘),实现将网络获取的新闻预料内容存入数据库。
数据库操作类:

"""
    作者:Aidan
    时间:01/02/2020
    功能:python与mysql数据库交互
"""
import pymysql
class database_execute(object):
    """
        数据库操作类
    """
    def __init__(self, db_name):
        self.db_name = db_name

    def connect_db(self):
        db = pymysql.connect(host='localhost', port=3308, user='root', password='',
                                  database=self.db_name, charset='utf8')
        return db

    def insert_db(self, company, title, href, date, source):
        db = self.connect_db()
        cur = db.cursor()
        sql = 'INSERT INTO test(company, title, href, date, source) VALUES (%s, %s, %s, %s, %s)'
        cur.execute(sql, (company, title, href, date, source))
        db.commit()
        cur.close()
        db.close()

百度新闻爬虫函数

"""
    作者:Aidan
    时间:01/02/2020
    功能:提取百度新闻标题、网址、日期和来源
    新增功能,批量获取多家公司的百度新闻并生成数据报告
"""

import requests
import re

def baidu_news(company):
    """
    获取网页源码,并提取百度新闻标题、网址、日期和来源
    :param company: 公司名称
    :return: 网页源码
    """
    url = 'https://www.baidu.com/s?rtt=1&bsst=1&cl=2&tn=news&word=' + company
    # 百度新闻网站只认可浏览器发送的请求,所以需要设置headers参数,
    # 以模拟浏览器的发送请求,chrome浏览器可以通过about:version获取
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                             'AppleWebKit/537.36 (KHTML, like Gecko) '
                             'Chrome/77.0.3865.120 Safari/537.36'}
    res = requests.get(url, headers=headers)
    web_text = res.text

    # 获取新闻的来源和日期
    pattern = '<p class="c-author">(.*?)</p>'
    info = re.findall(pattern, web_text, re.S)  # re.S用于考虑换行符,因为.和*不包含换行符
    # print(info)

    # 获取新闻的网址和标题
    pattern_herf = '<h3 class="c-title">.*?<a href="(.*?)"'
    href = re.findall(pattern_herf, web_text, re.S)
    # print(href)

    pattern_title = '<h3 class="c-title">.*?>(.*?)</a>'
    title = re.findall(pattern_title, web_text, re.S)
    # print(title)

    # title 数据清洗
    for i in range(len(title)):
        title[i] = title[i].strip()
        title[i] = re.sub('<.*?>', '', title[i])

    # print(title)

    # 新闻来源和日期清洗
    source = []
    date = []

    for i in range(len(info)):
        info[i] = re.sub('<.*?>', '', info[i])  # 清洗<img>标签信息
        source.append(info[i].split('&nbsp;&nbsp;')[0])  # 将新闻来源和日期分开
        date.append(info[i].split('&nbsp;&nbsp;')[1])
        source[i] = source[i].strip()
        date[i] = date[i].strip()

    return title, href, date, source

主函数

import spider
import python_database

def main():

    companys = ['华能信托', '腾讯', '阿里巴巴']
    title = []
    href = []
    date = []
    source = []

    db_connect = python_database.database_execute('spider')

    for company in companys:
        try:
            title, href, date, source = spider.baidu_news(company)
            for i in range(len(title)):
                db_connect.insert_db(company, title[i], href[i], date[i], source[i])
            print(company + '百度新闻爬取成功!')
        except:
            print(company + '百度新闻爬取失败!')

if __name__ == '__main__':
    main()

执行结果如下:


在这里插入图片描述
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,372评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,368评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,415评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,157评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,171评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,125评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,028评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,887评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,310评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,533评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,690评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,411评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,004评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,812评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,693评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,577评论 2 353

推荐阅读更多精彩内容