集中趋势
集中趋势是指一组数据想某一中心值靠拢的程度,反映了一组数据中心点的位置。
分类数据
众数是一组数据中出现次数最多的变量值,主要用于测度分类数据的集中趋势,也可以作为顺序数据以及数值型数据集中趋势的测度值。一般情况下,只有在数据量较大的情况下众数才有意义。众数是一组数据分布的峰值,不受极端值影响,其缺点是具有不唯一性。
顺序数据
中位数是一组数据排序后出狱中间位置的变量值,主要用于测度顺序数据的集中趋势,也适用于数值型数据,但不适用于分类数据。中位数是一组数据中间位置的值,不受极端值影响。当一组数据的分布偏斜程度较大时,采用中位数衡量数据的集中趋势是一个较好的选择。
四分位数是一组数据排序后处于25%(下四分位数)和75%(上四分位数)位置上的值。
数值型数据
平均数(均值)是一组数据相加后除以数据个数的结果,主要适用于数值型数据,不适用于分类数据与顺序数据。平均数利用了全部数据信息,是应用最广泛的集中趋势测量值,但平均数容易受到极端数据的影响,因此当数据为偏态分布时,中位数或众数的代表性比平均数要好,而当数据呈对称分布或接近对称分布时,三个值相等或接近相等,应当选择平均数作为集中趋势的代表值。根据数据的 不同,平均数的计算可以分为简单平均数、加权平均数和几何平均数。
简单平均数:根据未分组数据计算的平均数。
加权平均数:
几何平均数:适用于变量值本身是比率形式时,主要用于计算平均比率。实际应用中,集合平均数主要用于计算现象份平均增长率。
离散程度
离散程度反映的是各变量值远离中心值的程度。数据的离散程度越大,集中趋势的测量值对该组数据的代表性越差。
分类数据
异众比率:指非众数组的频数占总频数的比例,主要被用来衡量众数对一组数据的代表程度。适合用来测量分类数据的离散程度,也可以用于测量顺序数据和数值型数据的离散程度。
顺序数据
四分位差 (内距):反映了中间50%数据的离散程度。此外,由于中位数在数据的中间位置,因此四分位差的大小在一定程度上说明中位数对一组数据的代表程度。适合用于测量顺序数据的离散程度。
数值型数据
极差 (全距):一组数据的最大值与最小值的差,容易受到极端值影响,是最简单描述数据离散程度的测量值,不能准确描述数据的离散程度。
平均差 (平均绝对离差):指一组数据各个变量与其平均数离差绝对值的平均数。反映了每个数据与平均数的平均差异程度,能全面准确地反映一组数据的离散程度。
方差:指各变量值与其平均数离差平方的平均数。样本量减一得到自由度,样本方差是用离差平方和除以自由度。方差是没有量纲的。
标准差:方差的平方根。标准差有量纲,与变量值的计量单位一致,因此实际意义比方差清楚。实际分析中更多地使用标准差。
方差和标准差能较好的反映数据的离散程度,是应用最广泛的测量值。
相对离散程度
方差与标准差反映的是数据的离散程度的绝对值,当比较平均水平不同或计量单位不同的组别间的变量值,不能用标准差直接比较其离散程度,需要计算离散系数。
离散(变异)系数:是一组数据的标准差与其相应的平均数的比值,主要用于比较不同样本数据的离散程度。
分布形状
偏态
偏态是对数据分布对称性的测度。其统计量是偏态系数。
未分组数据的偏态系数计算:
分组数据的偏态系数计算:
当分布对称时,SK=0;当SK为正值时,判断为正偏或右偏;当SK为负值时,判断为负偏或左偏。
峰态
峰态是对数据分布平峰或尖峰的测度,测度峰态的统计量是峰态系数。
未分组数据的峰态系数计算:
分组数据的峰态系数计算:
用峰态系数说明分布的尖峰和扁平的程度,是通过与标准正态分布的峰态系数进行比较来实现的。由于正态分布的峰态系数为0,当K>0时为尖峰分布,数据的分布更集中;当K<0时为扁平分布,数据的分布越分散。
会员到期了,没有定时发布了,就现在吧。