第一节 频数分布表与分布图
一、计量资料的频数分布表
频数:对一个变量进行重复观察,其中在某取值下出现的次数
频率/相对频数:频数在总的观察例数中所占的比例
频数表:指如下一种格式的统计表:即同时列出观察指标的可能取值区间及其在各区间出现的频数,这种资料的表达方式比较完整地体现了观察值的分布规律,所以也称为频数分布表。
频数分布表的制作
二、计数资料和等级资料的频数表
三、频数分布图
正态分布
特点:中间高,两边低,左右对称
用两个参数描写正态分布:
(1)集中位置:均数
(2)离散程度:标准差
偏态分布
特点:频率分布高的偏向一端,没有一个对称轴
用两个参数描写偏态分布:
(1)集中位置:中位数
(2)离散程度:四分位数间距
四、频数分布表和频数分布图的用途
便于观察数据的分布类型:
正态分布or偏态分布
频数分布表和频数分布图:
正态分布:
(1)集中趋势的指标:均数
(2)离散趋势的指标:标准差
偏态分布:
(1)集中趋势的指标:中位数
(2)离散趋势的指标:四分位间距
第二节 集中位置的描述
一、算数均数
二、几何均数
三、中位数
定义:把一组变量按大小顺序排列,位置居中的那个数值(若n为奇数),用M表示。
适用范围:适合各种类型的资料,无论是正态资料,还是偏态资料。
尤其适合于:大样本偏态分布的资料;资料有不确定数值(如某数值<1,但具体值不明);资料分布不明;资料中有离群值等。
对于正态分布资料,首选算术均数。
对于偏态分布资料,首选中位数。
中位数所在的组:其累积频率略大于50%的组。
当数据呈对称分布时,均数和中位数接近。
当数据呈正偏态分布时,均数大于中位数。
当数据呈负偏态分布时,均数小于中位数。
第三节 变异指标
变异指标:定量描述离散趋势的指标。反映一组同质的计量资料观察值之间的变异程度。
指标:
(1)按间距计算:全距、四分位间距
(2)按平均差距计算:离均差平方和、方差、标准差、变异系数
P50即中位数。
P25 = 0.9 + 0.1 * [(160 * 25% - 37)/17] = 0.92
P75 = 1.3 + 0.1 * [(160 * 75% -110)/17] = 1.36
Q = P75 - P25 = 0.44
四分位数间距
将特殊的3个分位数P25、P50、P75统称为四分位数,并且分别称为第一四分位数、第二四分位数和第三四分位数,记为Q1、Q2和Q3。
Q3与Q1的差值为四分位数间距。
Q = Q3 - Q1 = P75 - P25
样本均数代替总体均数,导致离均差缩小。英国统计学家Gosset W-S提出自由度,以n-1代替n。
n-1又称作“自由度”,指随机变量可以“自由”变动的个数。
v=n-限制条件的数目
fX = 频数 * 组中值
fX^2 = 频数 * (组中值)^2
方差 = (221.52 - (182.30)^2/160)/(160 - 1) = 0.0869
标准差 = 0.29
标准差的基本内容是离均差,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。
ss = 40
方差 = 10
标准差 = 3.16
适用范围:
(1)观察指标单位不同,如身高、体重,
(2)均数相差悬殊
绝对变异受平均水平的影响
相对变异排除了平均水平的影响
总结:
第四节 正态分布
一、正态分布的概念和特征
一种连续型随机变量常见而重要的分布
μ为位置参数,σ为形状参数
例1:已知u1=-1.76,u2=-0.25,求标准正态曲线下(-1.76,-0.25)范围内的面积。
答:P(u1<u<u2)= Φ(u2)- Φ(u1)= 0.4013 - 0.0392 = 0.3621
参考:
例2:已知u1=-1.20,u2=1.6,求标准正态曲线下(-1.20,1.60)范围内的面积。
答: Φ(- ∞,1.60)= 1- Φ( - ∞,-1.60 )= 1 - 0.0548 = 0.9452
P(u1<u<u2)=Φ(u2)-Φ(u1)= 0.9452 - 0.1151 = 0.8301
例1:140名成年男子红细胞均数和标准差分别为4.78ⅹ10^12/L和0.37ⅹ10^12/L,求红细胞数在4ⅹ10^12/L至5.3ⅹ10^12/L范围内所占的比例。
答:可以转换为标准正态分布下的取值。
u1 =(4-4.78)/0.37=-2.11
u2 =(5.3-4.78)/0.37=1.41
P1 = 0.0174
P2 = 0.0793
P = 1-0.0174-0.0793=0.9033
例2:
正态分布的应用:
(1)制定医学参考值范围。
估计参考值范围的界限:①(资料的分布不符合正态分布时)百分位数法;②正态分布法。
① 百分位数法:
② 正态分布法:
(2)质量控制。
(3)正态分布是许多统计方法的理论基础。
很多统计学方法都是建立在正态分布的基础之上的。
非正态分布资料,对于经对数转化后成为正态分布或近似正态分布,先做变量转换,然后按正态分布的方法进行处理。