手把手教你完成一个数据科学小项目(4):评论数变化情况

前言

本系列将全面涉及本项目从爬虫、数据提取与准备、数据异常发现与清洗、分析与可视化等细节,并将代码统一开源在GitHub:DesertsX/gulius-projects ,感兴趣的朋友可以先行 star 哈。

请先阅读“中国年轻人正带领国家走向危机”,这锅背是不背? 一文,以对“手把手教你完成一个数据科学小项目”系列有个全局性的了解。

《踏莎行》

我知道好几个朋友按照前几篇文章的内容已经开始运行代码了,也知道一些人遇到了我碰到的 BUG,虽然更鼓励自行根据报错信息网上搜索解决方案,但也不介意加 Python
交友娱乐会所群(QQ群:613176398,娱乐会所没有嫩模)来询问,力所能及处也会帮忙新手小白看看为何出错,可爱友善的群友也同样会帮忙的。

而如果你正被 BUG 折腾的“心力交瘁”,这里送上一首叶嘉莹先生的《踏莎行》,希望你能元气满满哈。(如何评价叶嘉莹? - Deserts X

—世多艰,寸心如水。也曾局囿深杯里。炎天流火劫烧余,藐姑初识真仙子。
谷内青松,苍然若此。历尽冰霜偏未死。一朝鲲化欲鹏飞,天风吹动狂波起。

评论数变化情况

数据读取

但不管什么说,截至目前已经完成了数据爬取数据提取与IP查询数据异常与清洗,拿到手的数据终于可以用来分析和可视化了,也是件值得欣慰的事。

那么,闲言少叙,先来看看评论数随时间的变化情况吧,虽然上一篇文章:数据异常与清洗里涉及过,但由于侧重点在数据异常,所以未做展开,现在重新扩展下。

import pandas as pd
df = pd.read_csv('Sina_Finance_Comments_All_20180811_Cleaned.csv',encoding='utf-8')
df.head()

请无视前面几列多出来的:


先来看看评论数随时间戳变化情况:

import matplotlib.pyplot as plt
%matplotlib inline
plt.plot(df.stamp, df.cmntcount);


时间戳不太好识别,所以还是用常规的日期,并使用 pyechartspyecharts 配置文档 )绘制每日评论数的变化折线图:

df_ymdcount = df.groupby('time_ymd')['cmntcount'].count()
from pyecharts import Line
line = Line("每日评论数变化情况")
line.add("日期", df_ymdcount.index, df_ymdcount.values,line_type='dotted')
line

按天来看,这篇文章的大部分评论都是产生于在8月8号,即2008年北京奥运会十周年的当日,当然可能并不相关。


df_mdhcount = df.groupby('time_mdh')['cmntcount'].count()
from pyecharts import Line
line = Line("每小时评论数")
line.add("小时", df_mdhcount.index, df_mdhcount.values,line_opacity=1,line_type='dotted')
line

细分到每个小时上,评论的峰值发生在8号的9点,高达658条,数值大小在本文的图里看不出来,但 jupyter notebook 代码里的 pyecharts 图表都是交互式的,每个点的数值和时间均可查看。需注意的是需要运行过过代码才能看到,Github上点开是空白的。


然后是看起来更为立体的每小时评论数柱形图:

from pyecharts import Bar
bar = Bar("每小时评论数")
bar.add("小时", df_mdhcount.index, df_mdhcount.values,is_label_show=True,xaxis_interval=0,xaxis_rotate=-90)
bar

该新浪财经这篇《中国年轻人正带领国家走向危机》文章,有着极其“耸人听闻”的标题,但同样逃不过“速朽”的命运,在一两天内就趋于平淡了。


组合图 overlap

评论数随时间的变化情况大概就是这样了,其实没太多可说的,如果把后面提取地理位置(area 列)中的省份和城市数据,并调用百度地图API拿到所有位置的经纬度,并用BDP绘制动态热力图的实现过程先在这里一起讲的话,可能更有的可说,不过内容所限还是后续再讲哈。感兴趣的朋友可以按照这里的思路自行尝试绘制出下面的动态图哈。

4-heat-map-BDP-2h-8FPS.gif

唠嗑

仍值得一说的是在作图和可视化的过程中,对评论数相关图表还是不满意,于是想把每小时评论数的柱形图和总评论数变化的曲线图组合到一起,就像当初爬取张佳玮138w+知乎关注者:数据可视化完成项目时,在完全不懂 ECharts3里的代码和配置项的情况下,硬着头皮坑 JavaScript 代码,搞了个知乎第一大V“张公子”张佳玮的138万关注中自身有100+关注的人群的性别人数和比例图,今日看来,依旧兼具美感和创意,不像别处看到的可视化图一般“丑陋”(逃...);

也在简书=鸡汤?爬取简书今日看点:1916篇热门文章可视化项目里绘制了简书热门文章发布时间的年月分布图,审美杠杠的(逃...):

当然这里不必像上述二者那样需要去啃 ECharts3 的 JavaScript 代码(相关实现:图表太丑怎么破,ECharts神器带你飞!),直接在 pyecharts 配置文档 里有组合图多种示例,轻松实现下图:

df_mdhmax = df.groupby('time_mdh')['cmntcount'].max()
df_mdhcount = df.groupby('time_mdh')['cmntcount'].count()
from pyecharts import Bar, Line, Overlap
bar = Bar("每小时评论数")
bar.add("小时", df_mdhcount.index, df_mdhcount.values,is_label_show=True,xaxis_interval=-90,
        xaxis_rotate=-90, yaxis_interval=200,yaxis_max=800)
line = Line("每小时评论数")
line.add("小时", df_mdhmax.index, df_mdhmax.values,line_opacity=1,
         line_type='dotted', yaxis_interval=1000,yaxis_max=4000)

overlap = Overlap()
overlap.add(bar)
overlap.add(line, is_add_yaxis=True, yaxis_index=1)
#overlap.render() # 使用 render() 渲染生成 .html 文件
overlap

便捷的代价就是配色上没有太多选择的余地:


小结

pyecharts( 图表详情) 提供的图表选择还是蛮多的,大家可以自行选择想呈现的效果。后面地图可视化也会用到。而且,用起来很简单的,套用示例,改成自己的数据就行。

本系列将全面涉及本项目从爬虫、数据提取与准备、数据异常发现与清洗、分析与可视化等细节,并将代码统一开源在GitHub:DesertsX/gulius-projects ,感兴趣的朋友可以先行 star 哈。

本系列文章:
“中国年轻人正带领国家走向危机”,这锅背是不背?
手把手教你完成一个数据科学小项目(1):数据爬取
手把手教你完成一个数据科学小项目(2):数据提取、IP 查询
手把手教你完成一个数据科学小项目(3):数据异常与清洗

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容