第一节 频数分布表与频数分布图
1、频数分布表
2、频数分布图
3、频数分布特征
- 集中趋势(一组数据向一个位置聚集)
- 离散趋势(一组数据的分散性或变异度)
4、频数分布类型
- 对称型
- 不对称型(偏数值大的一边,正偏态;反之,负偏态)
第二节、集中位置的描述
(1)均数
a. 均数计算
- 直接法
- 加权法( k1p1+k2p2+……knpn)/(k1+k2+......kn )
b. 特征
- 各观察值与均数之和为0
- 各观察值离均差平方和最小
两个特征表明均数是单峰对称分布观察值最理想的代表值,特别是正态分布或者近似正态分布,不适用于描述偏态分布资料的集中位置
(2) 几何均数(G)
对于正偏态分布,但经过对数变化后呈对称分布;或者观察值之间呈倍数关系或者近似倍数关系
a. 计算
-
直接法
-
加权法 (也需要取对数)
b.应用
- 适用于观察值间呈倍数或近似倍数关系的资料
- 适用于变量呈正偏态分布,对数变换后呈正态或近似正态
- 负偏态资料不宜用几何均数,用中位数
(3)中位数
a.从大到小最中间的数
b.应用
中位数不受极端值的影响,因此用于不对称分布类型的资料、两端无确切值或分布不明确的资料
第三节 离散程度的描述
常用指标:极差、四分位数间值、方差、标准差和变异系数
1、极差
最大减最小
2、四分位数间距
(1)百分位数
将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为:一组n个观测值按数值大小排列。如,处于p%位置的值称第p百分位数,表示为Px。
3、方差
方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式:
实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式:
(n-1)为自由度,自由度(degree of freedom, df)指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本数量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。采用自由度作为分母为了避免用样本方差估计总体方差时偏小。
4、标准差
总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度。
5、变异系数
当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,从而引入变异系数(CV)来比较其离散程度。
第四节 正态分布及其应用
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),就是一种重要的连续随机变量的分布类型。
1、特征
正态分布曲线的密度函数
- 正态曲线在横轴上方均数处最高
- 正态分布以均数为中心左右对称
- 有两个参数,位置参数 μ(均数) 和形态参数 σ (标准差)
正态曲线下,横轴区间(μ-σ,μ+σ)内的面积为68.268949%。
P{|X-μ|<σ}=2Φ(1)-1=0.6826
横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%。
P{|X-μ|<2σ}=2Φ(2)-1=0.9544
横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。
P{|X-μ|<3σ}=2Φ(3)-1=0.9974
由于“小概率事件”和假设检验的基本思想 “小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。由此可见X落在(μ-3σ,μ+3σ)以外的概率小于千分之三,在实际问题中常认为相应的事件是不会发生的,基本上可以把区间(μ-3σ,μ+3σ)看作是随机变量X实际可能的取值区间,这称之为正态分布的“3σ”原则。
2、标准正态分布
均数为0,标准差为1
3、应用
- 估计总体变量值的频率分布
- 制定参考值范围
- 质量控制