图表思维——基于数据的图表化思考

图表思维是数据分析思维中的最简单和最基本的思维,主要是通过图形和表格对数据进行转化。

文字有局限

看到这段话,你会想到什么?


这是15年年初的一个新闻,简单的看上去,短短的一段话包含了太多的信息。关键词包括国民生产总值,增长,季度,一二三产业,单位也包括了绝对值亿元,也包括了相对的增长百分比。乍一眼看上去,非常的复杂,如何梳理一下,就会清晰很多。

首先第一句“2014年全年国内生产总值636463亿元,按可比价格计算,比上年增长7.4%。” 描绘了14年国内生产总值全年的情况和相对去年的增福,进一步地通过增幅可以知道去年的具体数值。

第二句“分季度看,一季度同比增长7.4%,二季度增长7.5%,三季度增长7.3%,四季度增长7.3%。”这一句描绘了每个季度的增福,可以知道每个季度的增福大致相同,可以说是增长幅度比较稳定,没有大起大落的情况,另外可以知道一季度增福最高,三四季度略低。

第三句“分产业看,第一产业增加值58332亿元,比上年增长4.1%;第二产业增加值271392亿元,增长7.3%;第三产业增加值306739亿元,增长8.1%。”描绘了每个产业的绝对值和相对的增福。可以换算出前一年的情况。同时能够进一步知道,三大产业中,第三产业增长最高,第一产业最低。单就产业增加值而言,第三产业最高,而第一产业最低。

简单的一段话,其实就是对国民生产总值进行拆分和对比,维度围绕了季节和产业。然后却因为所有信息都集中在了一起,让人不能第一眼就明晰逻辑,因此需要换一种方式让逻辑提现得更清晰。

表格有条理

刚才已经把一段话,按照总体,季度和产业的维度对国内生产总值进行了梳理。当我们把梳理落实在表格中时,逻辑相比文字清晰了很多,看到表格就一目了然地知道各类数据,而不需要再翻来覆去地进行整理和查找。


表格有用,但是局限仍在!

表格诚然比文字更加的有逻辑,更加的有条理。但是还有一些不够目了然的地方,比如对于三个产业的增加值而言,不能够更直观地反应出其大小关系来。第二产业增加值在国内生产总值中大概占多少,第三产业是第一产业的大概多少倍,都还需要计算,不能一目了然的看出。

图形含信息

因此还需要有一种更加直观的方式,体现出数据的逻辑,是其更容易地进行对比和拆分。当表格变成图形的时候,我们得到的信息清晰了很多。


图形之下,大小明显,关系清晰

第一张图的横轴是代表产业,柱子代表国民生产总值的增加值,折线代表同比上年增长率。简单的从图形上看,就能够发现第二、三产业的增加值远远大于第一产业,这两个产业在总的国民生产总值中大概占一半的样子。当然严格按比例算的话,还是比一半略少。同时第三产业略大于第二产业。增长率而言,第三产业大概是第一产业两倍,也比第二产业高一部分。

第二张图的横轴代表季度,柱子代表,同比增长,单从数据上看的话,增长率差别不大,当调整坐标轴后,还是能够更清晰地发现第二季度在增长率的突出。

相对比表格而言,图形能够直观地体现出对象之间的数量关系,非常容易进行对比,谁大谁小一眼就可以从图形的差别中识别。各种对象也能按照清晰的逻辑体现出拆分关系,对产业拆分,对季度拆分,整体以及部分之间的关系就一眼能够看出来。相对表格的孤立而言,图表能够进行各种组合,通过多种手段进行展现的时候,可能从图中产生更多的眼神信息出来。

文不如表,表不如图

在PPT的高手中,中离不开一句话,那就是“文不如表,表不如图”。这句话的意思就是,用文字表达信息的效果不如表格,用表格表达信息的效果不如图形。也正因为有这一句话,所以市面上有很多关于图形化表达的书籍。同样,对于数据分析而言,这句话也同样适用。


文不如表,字不如图

对文字而言,虽然包含了太多的信息,但是其中的数据却没有整理。有的时候,读上一段话几遍,也可能依然不能完全明确里面的思想,因此需要进一步的梳理逻辑,对文字本身进行加工处理才能清晰地获取其中的信息。表格相对文字而言,信息已经经过了整理,整体的逻辑都梳理得更清楚,然而当表格非常复杂的时候,有太多的行和列时,要清晰地对比各个对象之间的关系就比较困难,有时还会因为看错行列造成误读数据的情况发生。进一步地,当数据从表格展示到按照图形展示时,就清晰了很多,图形具备直观地特性,能够让人一眼看出其中的关系。

表格化思考和图形化思考是数据分析中重要的两种方式。表格化思考,能够理清各个对象,以及各个对象上面每个指标的数据,同时能够借助表格计算出各个对象的一些衍生指标,另外也可以借助表格来对数据进行管理,比如哪些对象中存在缺失值,就可以清晰的知道。表格化思考的模式虽然可能让数据很清晰,但是在一些数量关系上,表格不能快捷的提现。然而借助图形,信息就更加的清晰,极大极小值一眼能看出,同时异常值也能清晰发觉。

图形化思考,是将数据放在图形中进行思考,每个数据在图形中都有相应的位置,借助相关的位置关系,能够发现数据的大小,发展趋势以及结构特征等等。同时也借助图形化思考的模式,能够去发现可以进一步拆分和对比的地方。

一题见图优

这道应用题大家都应该在高中时代有做过类似的题目,其实就是一个数学规划问题。一个目标函数,另外两个约束条件分别限制两种原料的数量和产品的数量。

某公司生产甲、乙两种桶装产品.已知生产甲1桶需耗A原料1千克、B原料2千克;生产乙1桶需耗A原料2千克,B原料1千克.每桶甲的利润是3万元,每桶乙的利润是4万元.要求每天消耗A、B原料都不超过12千克.求公司共可获得的最大利润?

按照常规手段的求解如下:


常规解法

此外,也有图形方式求解。


图形解法

在图形方式中,X和Y轴分别表示甲乙两种产品的产量。图中的两条灰色直线分别表示AB两种原料的约束条件,即求解的点一定位于两条直线的左下方。

另外加上甲乙产品不小于0的约束条件,因此最优点一定落在两条斜线以及X和Y轴围城的区域内,即图中蓝色的区域。

根据目标函数的斜率,可行的目标函数是一组于约束区域相交平行线,函数的最大值,在最远离原点的直线上。当函数直线与两条原料的约束条件交点相交时,此时的目标函数是最大的。

经过对线性函数的求解,可以知道交点在(4,4)最终的结果也和方程的结果相同。

数形结合的思想光芒

数形结合的思想方法是数学中的经典方法,其意义是在数和型之间互相转化。在数据分析中,数据结合的方法同样适用。通过图形来获取信息,通过数据在来发现方向。


数形结合的思想光芒

数型结合中包括了对数化形和以型取数两个方面。

对数化形,是将数据转换成图形的模式,通过图形能够非常直观地发现对象集合中间包含的信息,尤其是总体拆分后的数据更加明显。可以看到对象对比强烈,哪些对象的数据存在异常,以及哪些对象之间存在明显的相关性。

当通过发现出相关的信息后,就能够根据实际需要,进一步地发现需要深入分析的地方。这里就到了以型取数的方面,即基于图形,进一步启发对比拆分的方向。进一步的分析包含了去选取新的指标,去拆分相应的变量以及将多个变量进行计算去产生衍生的变量等等。

对数化形和以型取数,并不孤立,而是互相循环运行,一步一步地去不断深入地分析数据,并从中取获取越来越多的信息。

图表分析流程

图表分析和核心是将零散的数据,转换成表格,然后进一步地转换成图形。


图表分析的流程

首先第一步是整体数据,明确需要的数据以及指标,并在其中明确输入的格式。就像开篇的案例一样,从整段文字中,梳理逻辑,然后提取相关的数据。平时的数据工作中可能不会像开篇一样,需要在文字中提取数据。然而仍然需要明确从哪些取得哪些数据进行分析,明确数据的规模和变量的设置,明确数据的输入格式,是绝对值还是相对值,是离散值还是连续值,是否是日期值等等。

明确了数据后,就是将数据录入到表格的公众。在录入的过程中,需要将所有的数据进行标准化的处理,即一个字段的格式都是统一的。表格通常以二维表的形式存在,竖列代表字段,横列代表每一个对象亦或者记录。当完成表格的导入后,就可以进一步地生产图形。

生成图形的过程中,是围绕分析的目的通过表格构建图形,目的明确拆分的方向,是在于看对比的角度,即是对比绝对大小,还是对比相互关系,或者是看时间趋势。明确目的后,就提取相关的变量和数据,构建合适的图形,进行对比。

与自己比——看差异:折线图

折线图是图形分析中非常常见的图表,通常用来分析时间发展的趋势。

在一张折线图中,通常X轴表示时间,从左往右依次增加,每一格增加一个时间单位。在特殊的情况下,由于时间窗口太长,也存在时间轴上面相邻的系列点位不等距的情况。

折线图的Y轴代表具体指标的数值,Y轴越高,表示数值越大,Y轴和X轴的交点是原点,原点中Y轴的单位可以是0,可以是其他数值。在X轴和Y轴的共同作用下来,就能够描出各个点位,每一个点位都表示不同的时间下面指标的数值。当多个点位标出后,相邻两点之间线段相连,就构成一条折线,折线表示了随着时间的发展,指标呈现出的变化。变化可以呈现多种形态,可以是简单的上升下降关系,也可以是呈现出波动的关系,甚至可以是在波动中上升下降。

在数据分析中,时间序列分析就会用到折线图,在时间序列中既有表示趋势的维度也存在表示波动周期的维度。


与自己比——看差异:折线图

从图上可以知道,在折线图中可以只有一条折线,即X轴表示时间,Y轴表示GDP数值。此外也可以有两条及以上的折线,每条折线用不同的形式表示,同时各指标除了有相同的时间点位,指标之间是互相独立,即多个指标可以有多个Y轴,Y轴的在原点上的数值可以不同,Y轴的点位之间数值间隔也可以不同。如在图中,蓝色折线表示GDP,黄色折线表示GDP增福,其中GDP的Y轴上的刻度单位为绝对值,而GDP增福的Y轴上的刻度单位是以百分比存在的相对值,两者的数量级都明显不同。

与别人比——看差异:柱状图

折线图通常是对比恒定对象在不同阶段的情况,当对比不同对象的差异时,就可以用到柱状图。

柱状图与这些图类似,也是有X轴和Y轴两个方向,X轴表示对象,而Y轴表示指标大小,而Y轴上指标的大小用柱子的高度表示,Y轴和X轴的交点可以为0,也可以是其他值。


与别人比——看差异:柱状图

正如第一张图,分别有两个对象中国和美国,两个国家分别在X轴上不同的位置上,两个国家的的GDP也对应地在图中按照不同高度的柱子体现出来。可以看到,美国的GDP要高于中国。

当有多个指标出现时,可以在一个对象上用多根柱子来表示,这些指标互相独立,因此柱子之间也可以有不同的Y轴单位和Y轴原点。正如下图,两个对象上面总共有两个指标进行对比,分别是GDP和GDP增速,两者的单位都不同一个是绝对值,另外一个是相对值。从图中可以看到,尽管中国的GDP低于美国,但是其GDP增速远远大于美国,GDP增速的之间的差异明显大于GDP之间的差异。

柱状图不仅可以用于离散的指标中,也能够处理连续数据。当处理连续数据时,需要对连续数据进行分类分组后,相应的区间分组构建柱状图。在连续柱状图中,X轴表示连续数据的分组,Y轴表示在X轴中相应区间分组中的对象数量。

正如图中所示,当看到一张各省市GDP的表格时,会给人一种找不到边际的感觉,然后进一步地对GDP按照1-2万亿,2-3万亿以及3万亿以上分成三组,接下来再对每组中的省份数量进行记数,并根据分组区间中的省份数量构建连续柱状图,X轴表示GDP分组区间,Y轴表示每个区间中的省份数量。从连续柱状图中可以发现,大多数省份的GDP聚焦在1-2万亿和2-3万亿的区间中。

与别人比——看差异:条形图

在对象间进行差异对比的图形中,条形图也同样适用。条形图的形式与柱状图相似,只不过X轴和Y轴表示的东西正好相反。在条形图中,X轴表示指标的数值,而Y轴表示对象。之所以会用到条形图,是因为条形图相比柱状图而言,可以放置更多的对象,让更多的对象进行对比。通常柱状图适用于7个及以内的对象,而条形图承载的对象就可以到达二十个甚至更多。


与别人比——看差异:条形图

如图所示,十八个省份的GDP在图中显示,其中X轴是GDP数值,而Y轴就是不同的省份,从图中可以发现,江苏的GDP最高,远远高出周围的GDP较高省份,山西的GDP最低,但是还是可以周围的低GDP的身份相差不大。

都能够比——看结构:圆饼图

当对比对象的结构时,就需要将对象进行拆分,拆分后可以用柱形图或者条形图对比,这种情况可以提现出拆分后的子对象的绝对指标,不过对于相对指标而言,不能更清晰的显示。需要提现对象相对值比如,所占比例的情况,就可以用到圆饼图。

在圆饼图中只有一个指标参与分析,同时这个指标可以根据参与的对象进行拆分,即不同对象的该指标可以进行相加处理。在圆饼图中,有多少个对象,就可以分成多少个扇区,每个扇区所占圆形角度的比例代表了对象指标在总体中的占比。当指标是相对比值的时候,如果总体指标加总是100%的话,那么每个扇区所占圆形角度的比例即为指标大小。


都能够比——看结构:圆饼图

在图中将GDP的按照产业拆分,每个产业GDP在总体中的占比不同,用不同的颜色表示了不同的对象。从图可以知道,第三产业的占比是最大的,而第一产业的占比是最小的。

都能够比——看结构:累计图

圆饼图在一组对象上进行对比,当有多组对象时,可以用累计柱状图的形式对比。

累计柱状图可以对比一组对象与另外一组数据在结构上的差异,当具有同样的结构时,能够体现出各组成部分的比例情况。在累计柱状图中,X轴表示不同组别的对象,Y轴表示各组对象中各对象数据在总体上的占比累计起来,Y轴的最大值为100%。

同时,累计条形图可也进行多组对象在结构上的对比,只不过X轴和Y轴所代表的意义正好同累计柱状图相反,X轴对象数据的累计占比,Y轴为不同组别对象。


都能够比——看结构:累计图

在图中,就是在对比05年和14中,每个产业的占比情况,通过把整体CDP拆分,并分年度进行对比,可以发现,相比05年,到14年时第三产业占比增长,第一第二产业占比下降。

复合图表——多维度对比

前面的图表中,不论是趋势,对象差异还是对象结构,对比的都是只有一个方面。很多情况下,在数据分析的对比工作,需要从多个角度来同时对比,这个时候就将多种形式的图形糅合起来,在一张图上进行对方面对比。

复合图形就可以提供这样的功能,在复合图表中往往是将多种形式的图形进行同时展示,如同时展示柱形图和折线图,一个在一个尺度展示一组指标,另外一个在另一个尺度上展示一组指标。又如同时展示累计柱形图和折线图,累计柱形图体现对象的结构,折线图体现出对象的大小。还可以有圆饼图和累计条形图进行对比,圆饼图在整体上分解结构吗,累计条形图对其中的一个对象进行进一步拆分。


复合图表——多维度对比

图中通过柱状图和折线图来展示国内生产总值的情况,X轴分别表示三个产业以及总体情况,柱状图表示国内生产总值的数值,折线图表示环比增幅。可以发第三产业增幅现最大,在国内生产总值上第二三产业数值相当。

图表思维总结

数据分析思维中的图表思维,这也是数据分析思维中最浅显易懂的。有一个很贴切的说法,就是字不如表,表不如图。把手边的数据转换成表格的形式,杂乱的数据就有了逻辑和相关和层次,尽管清晰度还不够,但是已经能够进行解读。更进一步的把表格转换成图形以后,数据之间的大小和关系会突出许多,让人非常直观的能够看出数据之中蕴含的信息。借助图形能够非常便捷地进行拆分和对比的工作。


图表思维总结

不同的分析目的适用不同的图形来表达,选择正确的图形有助于正确理解和解读数据。在时间上分析趋势,通常可以用折线图。在空间上分析差异,可以用柱状图,同时当分析对象过多是条形图是更好偶的选择。分析比例上的差异,使用圆饼图,当碰到多组数据对比结构差异时,累计柱状图或者条形图是非常好的悬着。当多个维度需要分析是,就可以用符合图表,如用柱状图表示绝对值数据,用条形图表示相对值数据。

图表一方面可以进行分析,另外一方面也可以进行数据分展示。对数据图表而言,能够使用的也不仅仅是上文介绍的,更多的图形表达方案可以查阅数据可视化的资料,里面的一些复杂图表会更加生动和清晰。

原文转发,功德无量!


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,233评论 6 495
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,357评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,831评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,313评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,417评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,470评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,482评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,265评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,708评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,997评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,176评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,503评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,150评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,391评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,034评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,063评论 2 352

推荐阅读更多精彩内容