一、类别数据的图表展示
-
用频数分布表观察类别数据
频数分布 是指由变量的取值及相应的频数形成的分布
频数分布表 是展示变量的取值及相应频数分布的表格
由于类别数据本身就是对事物的一种分类,因此只要列出所有分类并统计每一类的频数就得到频数分布表。对于类别数据可以使用一下统计量进行描述:
频数(frequency) :落在各类别中的数据个数
比例(proportion) :某一类别数据个数占全部数据个数的比值
比率(ratio) :不同类别数值个数的比值
百分比(percentage) :将对比的基数作为100而计算的比值(有序类别数据可以使用累计百分比来分析)有两个类别变量交叉分类的频数分布表称为列联表,或交叉表
-
用图形展示类别数据
-
条形图(bar Chart)
用宽度相同的条形的高度或长短来表示各类别数据
各类别可放在纵轴,称为条形图,可以放在横轴,称为柱形图(column chart)
将两幅条形图放一起即复式条形图 简单饼图(pie Chart)
用圆形及圆内扇形的角度来表示数值大小的图形,主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例用于研究结构问题
-
二、数值数据的图表展示
-
用频数分布表观察数据分布
1、确定组数:组数的确定应以能够显示数据的分布特征为目的。在实际分组时,组数约为 k≈√n。本例中由于数据较多,可考虑分为12组
2、确定组距:组距(Class Width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距=( 最大值 - 最小值)÷ 组数 ;为便于计算,组距宜取5或10的倍数
3、统计出各组的频数。每个组的数据满足a≤x<b(SPSS的计数规则是a<x≤b)下限(lower limit) :一个组的最小值
上限(upper limit) :一个组的最大值
组距(class width) :上限与下限之差
组中值(class midpoint) :下限与上限之间的中点值,即 组中值=(下限值+上限值)/ 2 -
用图表展示数值数据
-
展示数据分布特征的图形 (直方图—histogram)
用于展示分组数据分布的一种图形,用矩形的宽度和高度来表示频数分布,本质上是用矩形的面积来表示频数分布
在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。直方图下的总面积等于1注意:
1、条形图中的每一矩形表示一个类别,其宽度没有意义,而直方图的宽度则表示各组的组距
2、由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列
3、条形图主要用于展示类别数据,而直方图则主要用于展示数值数据 -
展示数据分布特征的图形 (茎叶图—stem-and-leaf plot)
用于显示未分组的原始数据的分布,由“茎”和“叶”两部分构成,其图形是由数字组成的,以该组数据的高位数值作树茎,低位数字作树叶。树叶上只保留最后一位数字;茎叶图类似于横置的直方图,但又有区别:
1、直方图可观察一组数据的分布状况,但没有给出具体的数值
2、茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息
3、直方图适用于大批量数据,茎叶图适用于小批量数据 -
展示数据分布特征的图形(箱线图 —box plot)
箱线图不仅可用于反映一组数据分布的特征,比如,分布是否对称,是否存在离群点(outlier)等,还可以对多组数据的分布特征进比较绘制箱线图步骤大致如下:
1、首先,找出一组数据的中位数(median)和两个四分位数(quartiles),并画出箱子。中位数是一组数据排序后处在50%位置上的数值。四分位数是一组数据排序后处在25%位置和75%位置上的两个分位数值,分别用𝑄25%和𝑄75%表示。𝑄75%−𝑄25%称为四分位差或四分位距(quartile deviation),用IQR表示。用两个四分位数画出箱子(四分位差的范围),并画出中位数在箱子里面的位置2、其次,计算出内围栏和相邻值,并画出须线。内围栏(inter fence)是与𝑄25%和𝑄75%的距离等于1.5倍四分位差的两个点,其中𝑄25%−1.5×IQR称为下内围栏,𝑄75%+1.5×IQR称为上内围栏。上下内围栏一般不在箱线图中显示,只是作为确定离群点的界限。然后找出上下内围栏之间的最大值和最小值(即非离群点的最大值和最小值),称为相邻值(adjacent value),其中𝑄25%−1.5×IQR范围内的最小值称为下相邻值,𝑄75%+1.5×IQ范围内的最大值称为上相邻值。用直线将上下相邻值分别与箱子连接,称为须线(whiskers)。
3、最后,找出离群点,并在图中单独标出。离群点(outlier)是大于上内围栏或小于下内围栏的数值,也称外部点(outside value),在图中用“O”单独标出
-
展示数据分布的图形(垂线图—drop-line)
垂线图可用于展示多个变量或多个样本取值的分布状况
将属于同一样本或类别的多个取值的散点用一条垂线连接起来,用垂线的长度及垂线上的各个点来反映某个样本或类别取值的差异及其变动状况 -
展示数据分布的图形(误差图—error bar)
误差图是以均值为中心,加减一定倍数的标准差(也可以是加减一定倍数的标准误差)绘制而成的(该图也可以绘制均值的一定置信水平的置信区间)
用于展示多个样本或分类的不同取值的分布状况和离散状况 -
展示变量间关系的图形(散点图—scatter plots)
展示两个变量之间的关系
用横轴代表变量x,纵轴代表变量y,每组数据(xi , yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的图
有2维、3维、矩阵等形式 -
比较多个样本相似性的图形 (轮廓图—outline chart)
将各变量用一系列平行的横坐标轴表示,变量值对应纵轴上的位置
可用于研究多个样本在多个变量上的相似程度或变量间的相互关系
-
三、使用图表的注意事项
- 合理安排统计表的结构
- 总标题内容应满足3W 要求
- 图形大体上为4:3的一个矩形,过长或过高的图形都有可能歪曲数据,给人留下错误的印象
- 图表应有编号和标题。编号一般使用阿拉伯数字,如表1、表2等等。图表的标题应明示出表中数据所属的时间(when)、地点(where)和内容(what),即通常所说的3W准则。表的标题通常放在表的上方;图的标题可放在图的上方,也可放在图的下方