1. 算数平均(arithmetic mean)
2. 加权算术平均(weighted arithmetic mean)
3. 变化率
变化率的定义如下:
4. 几何平均(geometric mean)
几何平均是 个数据连乘积的 次方根,其定义如下:
5. 移动平均(moving average)
所谓移动平均,就是对时间序列中的前后数据求平均,将不必要的变动(循环变动、季节变动和不规则变动)平滑化(),也就是剔除这些变动,从而发现长期变化方向的一种方法。
通常,移动平均大多用简单的奇数项来计算。
三项移动平均:
五项移动平均:
另一方面,在偶数项季节数据的情况下,可以按以下的方法来计算,即首先计算两个四项移动平均,再计算这两项的移动平均。这种方法叫移动平均的中心化。同样由于月度数据也是偶数项,因而称作中心化12项移动平均。
时序数据 | 4项移动平均 | 2项平均移动 |
---|---|---|
如果事先已知周期,一般要使项数与周期一致。
6. 方差与标准差
方差 与标准差 的定义如下
方差:
标准差:
其中, 又叫做离差平方和。
7. 变动系数(coefficient of variation)
变动系数又称变异系数,它是用标准差除以算术平均数的商来表示。变动系数的的定义如下:
变动系数越大,数据的分散程度越大,变动系数要求所有使用的数据均为正数,且算出的数值要用百分数形式来表示。
如果 为零或接近于零,变动系数无法计算,所以说变动系数是一种暧昧的尺度。
8. 标准化变量(standardized variable)
标准化变量是用来测量某个数据的数值与算术平均数 的偏离程度,是标准差 的多少倍。
标准化变量 的定义如下:
9. 相关系数(correlation coefficient)
相关系数是用来衡量两个变量 、 之间相互关系的大小和方向的系数。相关系数 的定义如下:
相关系数 的取值范围为,的取值具有以下不同的含义
值 | 相关性 |
---|---|
完全正相关(perfect correlation) | |
正相关(positive correlation) | |
不相关(no correlation) | |
负相关(negative correlation) | |
完全负相关(perfect correlation) |
10. 相关系数的检验
计算出来的相关系数在多大程度上值得信赖,需要进行检验。计算出来的相关系数,参照相关系数检验表,如果大于所示的相关系数,则两个变量之间存在显著的相关关系。 显著水平()越小,检验越严格。
显著水平指的是很少会发生的概率,相当于相关系数为零(),也即相当于不相关的概率。计算出来的相关系数的绝对值,如果大于表中显著水平为 的的相关系数,那就意味着,该相关系数为零的概率。也就是不相关的概率小于,因此存在显著的相关。
11. 斯皮尔曼秩相关系数(Spearman's rank correlation)
斯皮尔曼秩相关系数考察的不是 和 两组数据中的数值,而是顺序,借此来测算 和 之间相关关系的强弱,其定义如下:
是样本数, 是 和 的顺序差(即 )。斯皮尔曼秩相关系数的取值范围和解释方法和相关系数相同,它的优点是计算简单,可靠性高。
注:这里的“数据顺序”是指将数据从大到小排列的顺序,例如:
某工厂对工人的业务进行了一次考试,欲研究考试成绩与每月产量之间是否有联系,若随机抽选了一个样本,其考试成绩和产量数字如下表:
工人 考试成绩 产量 成绩等级 产量等级 1 50 500 6 6 2 60 510 5 5 3 70 530 4 4 4 80 560 3 3 5 90 580 2 2 6 95 1000 1 1 从表中的数字可以看出,工人的考试成绩愈高其产量也愈高,二者之间的联系程度是很一致的,但是相关系数并不算太高,这是由于它们之间的关系并不是线性的,如果分别按考试成绩和产量高低变换成等级(见上表第3、4列),则可以计算它们之间的等级相关系数为1。计算等级相关系数可以将数据变换成等级以后用原有的相关系数公式计算,也可以将算出每一对样本的等级之差 。
在所举的例子中由于等级完全一致,所有的 ,所以 。
等级相关系数和通常的相关系数一样,它与样本的容量有关,尤其是在样本容量比较小的情况下,其变异程度较大。
当数据顺序相同时,情况较为复杂,可以用下面的公式来计算:
其中,
12. 洛伦茨曲线(Lorenz curve)
洛伦茨曲线是用来表示收入分布、资产分布的差距、不平等程度、集中程度的一种代表性的方法。
一种洛伦茨曲线的绘制方法:横轴表示将家庭按收入从低到高排列的累计比率;纵轴表示的是与横轴的家庭累计比率相应的累计收入比率;两者的坐标可以在图中画出,最后将各点相连,就形成了洛伦茨曲线。
与横轴呈45°的直线为完全平等线,收入分布如果趋于平等化,洛伦茨曲线就接近于完全平等线,如果收入分布完全平等,洛伦茨曲线就与完全平等线重合。如果收入分布不平等,洛伦茨曲线就会偏离完全平等线,向右下方移动。
13. 基尼系数(Gini coefficient)
基尼系数是根据洛伦茨曲线用以计算收入分布不平等程度的指数。基尼系数的大小介于 与 之间,越接近 ,说明收入分布越平等;反之,越接近 ,说明不平等程度越大。
基尼系数的定义如下:
其中, 为累计家庭比率; 为累计收入比率;。
上图阴影部分面积的两倍就相当于基尼系数。
库兹涅茨曲线:库兹涅茨曲线表明:在经济发展过程开始的时候,尤其是在国民人均收入从最低上升到中等水平时,收入分配状况先趋于恶化,继而随着经济发展,逐步改善,最后达到比较公平的收入分配状况,呈颠倒过来的U的形状。Y轴表示的是基尼系数或分配状况,X轴是时间或收入状况。
14. 贡献度与贡献率
贡献度与贡献率放映的是在某种数据的变化中,它的各个构成要素贡献的大小或者变化的程度与方向(正、负)。
下列恒等式:
如果上述等式能够在每一期都成立,那么它的变化幅度的关系式也能够成立:
等式两边同除以基准时期的 ,则:
右边各项就是各要素的贡献度,它反映了在 的变化中,各个要素分别做了多大贡献。
再将等式两边同时除以 ,得:
右边各项就是各要素的的贡献度,如果将Y的变化幅度看作 ,贡献率反应的就是个要素分别贡献了百分之多少。
如果将时点 相对于时点 的变化幅度看作 ,其定义如下
欢迎大家一起讨论\ ^o^ /