第一章 统计学基础知识


1. 算数平均(arithmetic mean)

\overline{X}=\frac{\Sigma X}{n}

2. 加权算术平均(weighted arithmetic mean)

\overline{X}_w=\frac{\Sigma wX}{\Sigma w}

3. 变化率

变化率的定义如下:
\frac{X_t-X_{t-1}}{X_{t-1}} (t=2,3,...n)

4. 几何平均(geometric mean)

几何平均是 n 个数据连乘积的 n 次方根,其定义如下:
G=\sqrt[n]{X_1\times X_2\times...\times X_n}

5. 移动平均(moving average)

所谓移动平均,就是对时间序列中的前后数据求平均,将不必要的变动(循环变动、季节变动和不规则变动)平滑化(smoothing),也就是剔除这些变动,从而发现长期变化方向的一种方法。

通常,移动平均大多用简单的奇数项来计算。

三项移动平均:
\hat{X_t}=\frac{X_{t-1}+X_t+X_{t+1}}{3}
五项移动平均:
\hat{X_t}=\frac{X_{t-2}+X_{t-1}+X_t+X_{t+1}+X_{t+2}}{5}

另一方面,在偶数项季节数据的情况下,可以按以下的方法来计算,即首先计算两个四项移动平均,再计算这两项的移动平均。这种方法叫移动平均的中心化。同样由于月度数据也是偶数项,因而称作中心化12项移动平均。

时序数据 4项移动平均 2项平均移动
X_{t-2}
X_{t-1} \frac{X_{t-2}+X_{t-1}+X_{t}+X_{t+1}}{4}
X_{t} \frac{X_{t-1}+X_{t}+X_{t+1}+X_{t+2}}{4} \frac{X_{t-2}+2X_{t-1}+2X_{t}+2X_{t+1}+X_{t+2}}{8}
X_{t+1} =\frac{0.5X_{t-2}+X_{t-1}+X_{t}+X_{t+1}+0.5X_{t+2}}{4}
X_{t+2}

如果事先已知周期,一般要使项数与周期一致。

6. 方差与标准差

方差 s^2 与标准差 s 的定义如下
方差:
s^2=\frac{(X_1-\overline{X})^2+(X_2-\overline{X})^2+...+(X_n-\overline{X})^2}{n-1}
=\frac{1}{样本数-1}\Sigma(X-算术平均)^2
=\frac{1}{n-1}\Sigma(X-\overline{X})^2
标准差:
s=\sqrt{s^2}

其中, \Sigma(X-\overline{X})^2 又叫做离差平方和。

7. 变动系数(coefficient of variation)

变动系数又称变异系数,它是用标准差除以算术平均数的商来表示。变动系数CV的的定义如下:

CV=\frac{s}{\overline{X}}

变动系数越大,数据的分散程度越大,变动系数要求所有使用的数据均为正数,且算出的数值要用百分数形式来表示。
如果 \overline{X} 为零或接近于零,变动系数无法计算,所以说变动系数是一种暧昧的尺度。

8. 标准化变量(standardized variable)

标准化变量是用来测量某个数据的数值与算术平均数 \overline{X} 的偏离程度,是标准差 s 的多少倍。

标准化变量 z 的定义如下:

z=\frac{X-\overline{X}}{s}

9. 相关系数(correlation coefficient)

相关系数是用来衡量两个变量 XY 之间相互关系的大小和方向的系数。相关系数 R 的定义如下:
R=\frac{\Sigma(X-\overline{X})(Y-\overline{Y})}{\sqrt{\Sigma(X-\overline{X})^2\Sigma(Y-\overline{Y})^2}}\ \ \ \ [表达式]
R=\frac{n\Sigma XY-\Sigma X\times \Sigma Y}{\sqrt{[n\Sigma X^2-(\Sigma X)^2][n\Sigma Y^2-(\Sigma Y)^2]}}\ \ \ \ [计算式]

相关系数 R 的取值范围为-1\leq R\leq 1R的取值具有以下不同的含义

R 相关性
R=1 完全正相关(perfect correlation
R>0 正相关(positive correlation
R=0 不相关(no correlation
R<0 负相关(negative correlation
R=-1 完全负相关(perfect correlation

10. 相关系数的检验

计算出来的相关系数在多大程度上值得信赖,需要进行检验。计算出来的相关系数,参照相关系数检验表,如果大于所示的相关系数,则两个变量之间存在显著的相关关系。 显著水平(level\ of\ signification)越小,检验越严格。

自由度=样本数-2=n-2

显著水平指的是很少会发生的概率,相当于相关系数为零(R=0),也即相当于不相关的概率。计算出来的相关系数的绝对值,如果大于表中显著水平为1\% 的的相关系数,那就意味着,该相关系数为零的概率。也就是不相关的概率小于1\%,因此存在显著的相关。

11. 斯皮尔曼秩相关系数(Spearman's rank correlation)

斯皮尔曼秩相关系数考察的不是 XY 两组数据中的数值,而是顺序,借此来测算 XY 之间相关关系的强弱,其定义如下:

R_S=1-\frac{6\Sigma(X-Y)^2}{n(n^2-1)}\\ =1-\frac{6\Sigma d^2}{n(n^2-1)}

n 是样本数,dXY 的顺序差(即 X-Y)。斯皮尔曼秩相关系数的取值范围和解释方法和相关系数相同,它的优点是计算简单,可靠性高。

注:这里的“数据顺序”是指将数据从大到小排列的顺序,例如:
某工厂对工人的业务进行了一次考试,欲研究考试成绩与每月产量之间是否有联系,若随机抽选了一个样本,其考试成绩和产量数字如下表:

工人 考试成绩 产量 成绩等级 产量等级
1 50 500 6 6
2 60 510 5 5
3 70 530 4 4
4 80 560 3 3
5 90 580 2 2
6 95 1000 1 1

从表中的数字可以看出,工人的考试成绩愈高其产量也愈高,二者之间的联系程度是很一致的,但是相关系数并不算太高,这是由于它们之间的关系并不是线性的,如果分别按考试成绩和产量高低变换成等级(见上表第3、4列),则可以计算它们之间的等级相关系数为1。计算等级相关系数可以将数据变换成等级以后用原有的相关系数公式计算,也可以将算出每一对样本的等级之差 d
在所举的例子中由于等级完全一致,所有的 d= 0,所以 r=1
等级相关系数和通常的相关系数一样,它与样本的容量有关,尤其是在样本容量比较小的情况下,其变异程度较大。

当数据顺序相同时,情况较为复杂,可以用下面的公式来计算:

R_S=\frac{(\Sigma X^2+\Sigma Y^2-\Sigma d^2)\times \frac{n}{2}-T^2}{\sqrt{n\Sigma X^2-T^2}\sqrt{n\Sigma Y^2-T^2}}

其中,
d=X-Y
T=\frac{n(n+1)}{2}

12. 洛伦茨曲线(Lorenz curve)

洛伦茨曲线是用来表示收入分布、资产分布的差距、不平等程度、集中程度的一种代表性的方法。
一种洛伦茨曲线的绘制方法:横轴表示将家庭按收入从低到高排列的累计比率;纵轴表示的是与横轴的家庭累计比率相应的累计收入比率;两者的坐标可以在图中画出,最后将各点相连,就形成了洛伦茨曲线。

洛伦茨曲线

与横轴呈45°的直线为完全平等线,收入分布如果趋于平等化,洛伦茨曲线就接近于完全平等线,如果收入分布完全平等,洛伦茨曲线就与完全平等线重合。如果收入分布不平等,洛伦茨曲线就会偏离完全平等线,向右下方移动。

13. 基尼系数(Gini coefficient)

基尼系数是根据洛伦茨曲线用以计算收入分布不平等程度的指数。基尼系数的大小介于 01 之间,越接近 0 ,说明收入分布越平等;反之,越接近 1 ,说明不平等程度越大。
基尼系数的定义如下:
G=1-[(X_1-X_0)(Y_1+Y_0)+(X_2-X_1)(Y_2+Y_1)+...+(X_n-X_{n-1})(Y_{n}+Y_{n+1})]
=1-\Sigma(X_i-X_{i-1})(Y_i+Y_{i+1})
其中,X_i 为累计家庭比率;Y_i 为累计收入比率;i=0,1,...,n
上图阴影部分面积的两倍就相当于基尼系数。

库兹涅茨曲线:库兹涅茨曲线表明:在经济发展过程开始的时候,尤其是在国民人均收入从最低上升到中等水平时,收入分配状况先趋于恶化,继而随着经济发展,逐步改善,最后达到比较公平的收入分配状况,呈颠倒过来的U的形状。Y轴表示的是基尼系数或分配状况,X轴是时间或收入状况。


库兹涅茨曲线

14. 贡献度与贡献率

贡献度与贡献率放映的是在某种数据的变化中,它的各个构成要素贡献的大小或者变化的程度与方向(正、负)。
下列恒等式:
Y=A+B+C+D
如果上述等式能够在每一期都成立,那么它的变化幅度的关系式也能够成立:
\dot{Y}=\dot{A}+\dot{B}+\dot{C}+\dot{D}
等式两边同除以基准时期的 Y,则:
\frac{\dot{Y}}{Y}=\frac{\dot{A}}{Y}+\frac{\dot{B}}{Y}+\frac{\dot{C}}{Y}+\frac{\dot{D}}{Y}
右边各项就是各要素的贡献度,它反映了在 Y的变化中,各个要素分别做了多大贡献。
再将等式两边同时除以 \dot{Y} ,得:
1=\frac{\dot{A}}{\dot{Y}}+\frac{\dot{B}}{\dot{Y}}+\frac{\dot{C}}{\dot{Y}}+\frac{\dot{D}}{\dot{Y}}
右边各项就是各要素的的贡献度,如果将Y的变化幅度看作 100\%,贡献率反应的就是个要素分别贡献了百分之多少。
如果将时点 2 相对于时点 1 的变化幅度看作 \dot{Y} ,其定义如下
\dot{Y}=Y_2-Y_1

欢迎大家一起讨论\ ^o^ /

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容