python金融大数据挖掘与分析（四）——数据清洗及数据评分系统

@[toc]
从网络上获取数据之后需要对数据进行清洗优化，如去重、统一日期格式等等操作，今天主要记录和学习一下数据清洗优化的常规手段及数据乱码问题的处理

1. 数据去重及清洗优化

1.1 数据去重

前面的博文提到，将自动爬取的数据存入数据库，但是数据库并不能自动识别重复信息，所以24小时实时爬取的数据中难免会存在很多重复性数据，本节主要介绍针对重复数据的处理方法。

数据去重的思路：爬取到一条新闻的数据后，先查询数据库，如果发现该新闻的标题已经存在，就不把该新闻存入数据库。

sql = 'SELECT * FROM test WHERE company = %s'
cur.execute(sql, company)
data_all = self.cur.fetchall()
title_all = []  # 创建一个列表用来存储新闻标题
for i in data_all:
    title_all.append(i[1])

if title[i] not in title_all:
    # 执行插入到数据库操作。

1.2 日期格式统一

前面的博文中介绍到，我们已经使用如下方法对数据进行了初步处理：

strip（）函数：删除空格、换行符等非相关符号
split（）函数：提取文本中的日期信息
sub（）函数：替换文本内容。

下面，我们我要使用这些常用的数据处理方法对日期数据格式进行统一，改写为2020-01-01 18：12这样的格式。这里的处理方法是将2020年01月01日中的年月日改写为“-”，将58分钟前，5小时前这样的日期替换为今天的日期即可。

import time
    for i in range(len(date)):
        date[i] = date[i].split(' ')[0]      #处理带有具体时分秒的日期
        date[i] = re.sub('年', '-', date[i])
        date[i] = re.sub('月', '-', date[i])
        date[i] = re.sub('日', '', date[i])
        if ('小时' in date[i]) or ('分钟' in date[i]):
            date[i] = time.strftime("%Y-%m-%d")
        else:
            date[i] = date[i]

1.3 文本内容深度过滤——剔除噪声数据

我们爬取的数据取自网络，数据中难免会出现噪声数据，例如搜索一家公司，可能返回的搜索结果中包含同名或者相似名称的信息等，这些内容不是我们需要的，这时需要将这些数据剔除。这里主要使用两种方法：第一种是根据新闻标题进行简单过滤，另一种是根据新闻正文内容进行深度过滤。

根据新闻标题进行简单过滤

    for i in range(len(title)):
        if company not in title[i]:
            title[i] = ''
            href[i] = ''
            date[i] = ''
            source[i] = ''
    while '' in title:
        title.remove('')
    while '' in href:
        href.remove()
    while '' in date:
        date.remove()
    while '' in source:
        source.remove()

根据新闻正文内容进行深度过滤
我们可以通过如下方式获取新闻的正文内容

article = requests.get(href[i]).text

配合新闻标题的过滤方法，可以实现根据新闻正文的过滤方法。

# 根据新闻正文内容进行深度过滤
for i in range(len(title)):
    try:
        article = requests.get(href[i]).text
    except:
        article = '爬取失败'
    if company not in article:
        title[i] = ''
        href[i] = ''
        date[i] = ''
        source[i] = ''
while '' in title:
    title.remove('')
while '' in href:
    href.remove()
while '' in date:
    date.remove()
while '' in source:
    source.remove()

经过上面的代码执行，已基本能够实现根据正文内容的深度过滤，但是还要可以改进的地方，例如‘华能信托’公司，也叫作‘华能贵诚信托’公司，通过上面的代码，可能会把其中一种命名方式忽略掉，因此，这里可以采用正则化的方式对代码进行改进。
将原来的判断条件代码if company not in article:替换为

company_pattern = company[0] + '.{0,5}' + company[-1]
if len(re.findall(company_pattern, article)) < 1:

应对不同的问题，可以通过改写正则化匹配规则来解决。

2. 数据乱码的处理

有些网页的源代码爬取出来会出现中文乱码，例如我们在爬取百度首页www.baidu.com时，如果不加header参数，爬取到的中文则是乱码显示，这时因为python获得的网页源代码的编码方式和网页实际的编码方式不一致，从而导致其中的中文呈现为乱码。此时需要对编码进行分析，并重新编码和解码，以获取正确的内容。

2.1 编码分析

分别比较获取python获得的网页源代码的编码方式和网页实际的编码方式，比较两者是否相同。

首先获取python获得的网页源代码的编码方式

import requests
url = 'https://www.baidu.com'
code = requests.get(url).encoding
print(code)

结果为：

ISO-8859-1

获取网页实际的编码方式
在百度网页，F12打开开发者模式，展开最上方的<head>标签，其中<meta>标签里的charset参数存储的便是网页实际的编码方式。

在这里插入图片描述

2.2 重新编码及解码

为了解决python获取的网页源码中出现中文乱码的问题，需要通过重新编码及解码的方式来解决。

编码：把文本字符串转换为二进制字符（由英文字母和数字组成的原始字符）
解码：把二进制字符转换为文本字符串
通过重新编码和解码的方式可以解决乱码的问题，代码如下

res = requests.get(url).text
res = res.encode('ISO-8859-1').decode('utf-8')

上述代码首先通过encode()函数进行编码，将获取的ISO-8859-1的中文内容转换为二进制字符，然后通过decode()函数，将二进制字符转换为网页实际的编码方式utf-8。

通过更改编码方式的问题可以不加header参数解决中文乱码的问题，但是该方法并不能适用于所有网页，毕竟不同网页可能使用不同的编码方式，例如gbk编码也是支持中文的。

3. 舆情数据评分系统搭建

有时除了新闻、网址、日期、来源等，还需要挖掘一些其他内容。本章内容主要完成舆情数据评分系统的搭建，由易到难，逐步完善。

3.1 根据标题和正文评分

评分方式：根据新闻标题或者正文中是否出现特定的负面词来给新闻打分

    score = []
    keywords = ['风险', '违约', '诉讼', '兑付', '减持']  # 可自行设定
    for i in range(len(title)):
        num = 0
        # 爬取正文
        try:
            article = requests.get(href[i], headers=headers, timeout=10).text
        except:
            print('单个新闻爬取失败')
            
        for k in keywords:
            if (k in article) or (k in title[i]):
                num -= 5
        score.append(num)

3.2 处理非相关信息

通过上面的方式，我们获取的是网页中的全部源代码，但是打开一个网页我们会发现，网页中除了新闻正文内容外，还有诸如新闻推荐，热门排行，相关新闻等板块内容，这些内容可能会导致一些正面新闻被误伤。
为了解决该问题，我们需要对网页源码结果进行分析，大部分网页的正文内容都包含在<p></p>，而其他内容则不是（不完全），因此我们可以通过正则匹配的方式提取到<p></p>之间的内容。

    score = []
    keywords = ['风险', '违约', '诉讼', '兑付', '减持']  # 可自行设定
    for i in range(len(title)):
        num = 0
        # 爬取正文
        try:
            article = requests.get(href[i], headers=headers, timeout=10).text
        except:
            print('单个新闻爬取失败')
            
        # 删除网页中的无关内容
        article_pattern = '<p>(.*?)</p>'
        article_main = re.findall(article_pattern, article)
        article = ''.join(article_main)     #将article_main列表中的内容连接成一个字符串
        
        for k in keywords:
            if (k in article) or (k in title[i]):
                num -= 5
        score.append(num)

将前面所有的模块整合到一起，我们就能获得一个比较基本的新闻舆情评分系统，其中包括了网页新闻爬取模块，数据初步清洗模块，舆情评分模块，数据二次深度清洗模块，数据去重以及数据存储模块。

通过该系统，我们能够获得目标公司的每日评分，之后，可以对数据进行一些深度分析，查看舆情数据评分是否和上市公司的股价变化具有一定的相关性。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 225,641评论 6赞 525
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 96,754评论 3赞 408
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 173,075评论 0赞 370
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 61,369评论 1赞 303
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 70,386评论 6赞 402
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 53,800评论 1赞 317
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 42,122评论 3赞 431
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 41,130评论 0赞 281
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 47,689评论 1赞 327
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 39,693评论 3赞 348
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 41,804评论 1赞 356
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 37,399评论 5赞 351
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 43,128评论 3赞 341
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 33,528评论 0赞 25
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 34,705评论 1赞 278
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 50,409评论 3赞 383
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 46,878评论 2赞 368