大数据时代,数据分析无疑是当今最热门的职位之一了,当你看见一张张漂亮的可视化图表的时候,你可要保持清晰冷静的头脑了,说不定这是数据分析从业师对你施加的Tricks来迷惑你的呢~
本文就向大家介绍一下数据分析与可视化过程中常见的 “数据会说谎” 系列。
-
时间序列数据的区间选取
设想一下,你想写一份数据分析报告用于佐证你的观点时,而又苦于无法寻找强有力的支撑点时。不妨换一换思路,你可能会得到额外的收获。案例如下:你打算为你的观点 “奥巴马政府比布什政府在就业方面做了更多努力” 提供数据说服力时,若仅仅取近几年的数据,那么我们会得到如下的统计图表:
由于视觉的信息传达要比文字更多更高效,因此当看到这张图时,我想大多数人都会认同 “奥巴马政府在促进就业方面比布什政府做得更好” 这个观点了。(小提示:在统计图表下方标注官方、权威的数据来源,会使得你的数据分析报告更具备说服力!)
然而,当我们把时间区间扩大,就会得到如下的统计图表:
此时,上述观点就不具备说服力了。
好好 “利用” 时间序列数据的天然属性,往往能解读出不同的观点,这是今天谈到的第一个“数据会说谎”例子,记住了吗~
-
坐标原点的选取
设想一下,如果你想表达 “某APP自从上线以来,用户数量飙升” 这个观点时,我们来看一下选取 【不同坐标原点】时,图表是如何 “欺骗” 我们双眼的。
当我们将Y轴坐标原点设置为10,就会得到如下的折线图(是不是显得 “增势喜人”?):
然而,当我们将Y轴坐标原点设置为0,就会得到如下的折线图(是不是看起来增长数量停滞了?):
因此,选择【不同的Y轴坐标原点】,可能带来完全相反的观点解读!
-
选择不同的表现形式
设想一下这样的场景:A公司当前本季度销售额为120万,上季度销售额为100万;B公司当前本季度销售额为1100万,上季度销售额为1000万。
若按照【增长率百分比】来计算,则A的增长率为20%,B为10%。若将该数字生成图表,此时的视觉效应则更加明显:
若按照【增长数量】来计算,就会得到下面的结果: