以下内容是我在Udacity的商业数据分析纳米项目的学习总结,大部分内容是摘抄自课程文案。本章承接上一篇文章。
第三部分——探索图表
数据整理好后,你需要再次探索该数据,以便理解数据。你需要查看数据的分布方式,某些变量是否有关联,记录是如何分类的。这一流程通常称为探索性数据分析,简称 EDA。
这时候数据可视化就派上用场了,因为你可以绘制数据分布情况,并创建散布图来表示关系。有助于你从数据中发现有趣的规律,以及其他特征,帮助你做出决策。
柱状图
对于分类变量来说,你需要查看数据是如何在各个类别之间分布的。这时候适合使用柱状图:
直方图
对于连续变量来说,你可以用直方图来表示分布情况。直方图与柱状图类似,但它的变量划分至不同的范围,然后在不同的范围中统计计数。在直方图中,连续的柱子暗示数值上的连续。直方图在大多数可视化工具中都可以非常方便地作出。
直方图适合显示异常值及数据是如何分布的。此外,并非收集的所有变量都是正态分布的!如果假设是正态的话,可能会得出错误的结论。
散点图
你可以用散点图查看变量之间的关系。可以帮助你确定相互关联的变量,或其他有趣的关系。你之前就见过下面的这个图表,但是我将再次提到该图表。
这个散点图显示了一组男性的身高和体重之间的关系。很明显一般情况下,身高升高的话,体重也会增加。当然实际也是这种情况,越高的人体重通常越重!
箱线图
箱线图是一种常见的可视化图表,使用区间来显示一般分布形状。区间是大于某个百分比的数据的值。例如,50% 区间是指大于 50% 的数据的值,通常称为中间值。95% 区间是指大于 95% 的数据的值。所有箱线图都使用 25%、50% 和 75% 区间,通常称为四分位数。通常,还会使用箱须(或侧栏)来表示更大的区间,或者最小区间和最大区间。你还会经常看到箱线图显示了异常值、大于或小于箱须值的数据点。
小多组图组
小多组图组是指一系列具有相同标尺的图表,使我们能够轻松地对比几组不同的数据。这些图表可以是任何类型:折线图、柱状图,散点图、地图。
Edward Tufte 在《Visual Display of Quantitative Information》一书中经常提到这一术语。有时候还会称作组图或格子图(我不知道这些术语都是从何而来的,但是的确看起来像格子)。这些图表变成了我最喜欢的可视化方法,并且很热门。
该图表显示了每组数据中每个成员的线条。所有这些线条都相互堆叠在一起,很难看出相互之间的对比情况。如果每个都单独放入一个图表,那么就能轻松地对比每个成员在一段时间内值的变化情况。
地理空间图表
地理空间数据(国家/地区、州、纬度、经度)可以通过地图来表示。你通常会见到两种类型的地图。分级统计图在地图上使用颜色来表示与地点相关的另一个值,例如人口、人口密度、GDP 等。示意地图与等值线图相似,但是会扭曲区域(例如国家)界线来表示值,通常还会用颜色表示。
表格
有时候,你需要显示数据的实际值,这时候适合使用表格。可能有点违反直觉,因为整个这门课程都是讲使用图形而不是表格。但是,有时候更需要观察实际值,而不是进行对比。你也可以在图表中轻松地标注颜色和添加格式(粗体或斜体),强调希望观看者注意的内容。例如,用红色表示亏损,或用绿色表示逐月增长情况。
更多图表探索可以参照下图: