第2章 描述统计学Ⅰ:表格法和图形法
分类型数据是用标签或名称来识别项目的类型。数量型数据是表示多少或大小的数据。
术语数据可视化(data visualization)常常用于描述汇总和表述一个数据集信息的图形显示的效用。
1、汇总分类变量的数据
1.1频数分布
频数分布(frequency distribution)是一种数据的表格汇总,表示在几个互不重叠组别中的每一组项目的个数(频数)。
条形图(bar chart)是一种图形方法,用来描绘已汇总的分类型数据的频数分布、相对频数分布或百分数频数分布。
2.2 数量型数据汇总
2.2.1 频数分布
三个步骤:1、确定互不重叠组的组数。
2、确定组宽。
3、确定组限。选择组限必须使每一个数据值属于且只属于一组。
直方图(histogram)是一种常用的数量型数据的图形描述方式。
直方图中邻近的长方形是互相连接的,属于条形图。
直方图的一个最重要应用是提供了分布形态的信息。左偏表示图形的尾部向左延伸一些。考试成绩就是典型,大多数成绩常常在70%之上。
2.3 用表格方式汇总两个变量的数据
2.3.1 交叉分组表
辛普森悖论:从两个或多个单独的交叉分组表得到的结论与一个综合的交叉分组表数据得到的结论可能截然相反。举例子两位法官,分析综合数据时,应该审查是否存在可能影响结论的隐藏变量,使得分开的交叉分组表提供不同的、可能更好的见解和结论。
2.4 用图形显示方式汇总两个变量的数据
2.4.1 散点图和趋势线
散点图(scatter diagram),趋势线(trendline)是显示相关性近似程度的一条直线。它们会一起出现。
2.4.2 复合条形图和结构条形图
复合条形图是对已汇总的多个条形图同时显示的一种图形显示方式。结构条形图:没一个长条被分解成不同颜色的矩形段,与饼形图类似的方式显示每一组的相对频数。
2.5 数据可视化:创建有效图形显示的最佳实践
遵循如下的一般性准则,可以增强你的显示有效地表述数据中重要信息的可能性:
给予图形显示一个清晰、简明的标题。
使图形显示保持简洁,当能用二维表示时不要用三维表示。
每个坐标轴有清楚的标记,并给出测量的单位。
如果使用颜色来区分类别,要确保颜色是不同的。
如果使用多种颜色或线型,用图例来标明时,要将图例靠近所表示的数据。
2.5.3 数据仪表板