我们来看下面一组数据,可以在这里下载数据的 xlsx 文档。
概括性统计 vs. 数据可视化
概括性统计
上面有四组类似的数据集。一切看起来正常,只是一组数字。从 I 到 IV 的每个数据集都具有以下相同的统计特征:
通过统计特征了解一下数据集它们具有相同的特征,线性递归的拟合优度测量结果(例如 R^2)也相同。只看数据的话,根本发现不了什么奇怪的地方,这是时候我们是不是可以认为它们是一组一样的数据呢,它们的关系是不是一样的?其实不是。
平均值与标准差这样的概括性统计度量值,可用于快速了解一个数据集。但是如果你对数据集的整体分布做了太多假设,这些统计量也可能会产生误导。有时候仅通过查看数据本身无法看出数据之间的关系。
数据可视化
我们看看可视化之后的效果:
将这些数据绘制成图表后,我们可以清晰地看到每组数据非常不同。不仅数据集不同,而且第 II、III 和 IV 组的线性趋势明显不对,虽然所有的统计信息似乎没问题。这就是可视化具有的作用,它们可以展示出仅通过查看数据本身无法看出的关系。
再看一个示例。你可能会在实际工作中看到下面的数据表格,表示的是总利润在细分群体“消费类、企业和总公司”之间的划分情况。
这张图不太容易看出数据有何关系,每个值的相互对比情况(如果有任何规律或关系的话)。我们可以添加一些颜色让亏损的部分更加明显。
添加颜色有所帮助,但是依然难以看出每个类别的相互对比情况。如果值用横条长度表示,那么就很容易看出相互之间的关系了。
现在可以轻松地看出各种规律了。复印机始终利润最高。在三大细分中,家庭办公的利润最低。
数据可视化主要有两个目的:
1.当你在数据中寻找见解时时,就是在进行探索性分析,这种分析的可视化并不需要完美。使用图表寻找数据规律,图表本身不需要考虑美感。你就是这些图表的“客户”,只要能够从图表中找到问题答案即可。
2.如果要把分析结果展示给其他人,那就需要用到解释性分析了,这种可视化要突出你想传递的信息,需要精确、有见地并且具有视觉吸引力。
总结
在此练习中,我们查看了四组X/Y的数据对,所有这些数据集具有相同的平均值与标准差,你可能认为这些数据相互之间非常相似,事实证明四组数据集的均值、方差、相关系数、以及最佳拟合线都相同;但是这些数据是否真的是相似呢,其实它们并不一样,这就是安斯库姆四重奏(Anscombe's Quartet)。
PS.比安斯库姆四重奏更疯狂的例子(需要翻墙访问)
最近 Alberto Cairo 创建了Datasaurus 数据集。 该数据集具有惊人的洞察力和艺术性, 但是它的理念跟安斯库姆四重奏的例子是完全一样的。你可以通过 Datasaurus 的链接找到该数据集的相关文献及可视化。