20190809统计学重点知识归纳

一、统计学

1、基础知识

1.1、基本定义

1.1.1 集中趋势:一组数据向其中心值靠拢的倾向和程度.注:低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据

各集中测度适用范围

1.1.2 众数:一组数据中出现次数最多的变量值。一组数据可能没有众数或有多个众数,不受极端值的影响,主要用于分类数据。注:若是分类数据,是找发生频数最多的类别名

1.1.3 中位数:排序后处于中间位置上的值。不受极端值的影响,主要用于顺序数据。

        ①、注:若是分类数据或顺序数据,先对分类和顺序排序,然后对频数做累加,再根据和值+1的和除2得出Me对应的累计频数,最后找出第一个大于等于Me值所处位置的类别名或顺序号

分类及顺序数据寻找中位数的例子

          ②、公式:

                 位置确定  = \frac{n+1}{2}

                 数值确定Me=X_{\frac{n+1}{2} }    (n为奇数)      或

                                Me=\frac{1}{2} \left\{ X_{\frac{n}{2}} +X_{\frac{n+1}{2}} \right\}

1.1.4 四分位数:排序后处于25%和75%位置上的值。不受极端值的影响。计算公式 Q_{L} 位置=\frac{n}{4}  、 Q_{U} 位置=\frac{3n}{4}

顺序数据四分位数例题
数值型数据四分位数例题


1.1.5、平均数,也称均值,一组数据的均衡点所在。易受极端值影响,有平方平均数、算术平均数(简单平均数和加权平均数)、几何平均数和调和平均数四种类型。根据总体数据计算的,称为平均数,记为μ;根据样本数据计算的,称为样本平均数,记为\tilde{x} 。公式:

平均数公式

1.2、常用统计计算公式

基本公式

1.3 异众比率:对分类数据离散程度的程度,计算的是非众数组的频数占总频数的比例。公式 V_{r} =1-\frac{ f_{m} }{\sum_{i=1}^n f_{j} } ,用于衡量众数的代表性

异众比率例题

1.4 四分位差:对顺序数据离散程度的测度,也成为内距或四分间距,用于衡量中位数的代表性。公式 :IQR(或Q_{d})=Q_{U}-Q_{L} 或  =Q_{\frac{3}{4}} -Q_{\frac{1}{4}}  

1.5 极差:一组数据的最大值与最小值之差,公式R=max(x_{i} )-min(x_{i} )

   1.6 标准化 和归一化

        1.6.1也称标准化值,对某一个值在一组数据中相对位置的度量,可用于判断一组数据是否有离群点,用于对变量的标准化处理,公式Z_{i} =\frac{X_{i}- \tilde{x} }{S}

         1.6.2 z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是使该组数据均值为0,标准差为1。

          1.6.3 对称分布经验法则

法则

              1.6.4 不对称分布采用切比雪夫不等式判断

切比雪夫不等式含义
切比雪夫不等式经验法则

             1.6.5 归一化:使物理系统数值的绝对值变成某种相对值关系,范围是[0,1]。公式=\frac{x_{i}-min(x) }{max(x) -min(x) }   或 \frac{max(x)-x_{i} }{max(x) -min(x) }

              1.6.6 标准化和归一化的作用:

                      ①、消除量纲的影响。对于有些算法,比如k-近邻 k-均值 支持向量机等等会涉及到某种距离的度量,量纲会带来

很大的影响。

                      ②、 对于某些使用梯度下降算法来进行优化的算法,数据归一化或者标准化后,可以加速梯度下降的收敛,关于梯度下降算法参考文献:https://www.cnblogs.com/LUOyaXIONG/p/11244897.html。                       

1.7 离散系数:标准差与其相应的均值之比,对数据相对离散程度的测度;消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较。公式V_{S} =\frac{S}{\tilde{X} }

1.8 分布函数

       1.8.1 定义:设X是一个随机变量,x是任意实数。函数 F(x) = 𝑃 (X ≤ x) 称为 X 的分布函数,表示随机变量

                           X 的值小于等于 x 的概率。

                          对于任意的 x1,x2 (x1<x2),有:

                          𝑃 (x1 < X ≤ x2 )= 𝑃 (X ≤ x2 )− 𝑃( X≤ x1)= F(x2)-F(x1)

                          𝑃 (X> x1 )= 1 − 𝑃( X≤ x1) = 1 −F(x1)

                 注:F(x)=\int_{-∞}^{x} f(t)dt       

         1.8.2 性质:

                          f(x) ≥ 0

                          \int_{-∞}^{+∞} f(x)dx  =  1

                           P(a<x≤b)=\int_{a}^{b} f(x)dx

                       注:概率密度函数在个别点上的取值不会影响随机变量的表现;连续型的随机变量取值在任意一点的概率都是0

1.9 正态分布(也叫高斯分布)

       1.9.1 公式  N(μ,σ^2)~ \frac{1}{\sigma \sqrt{2 \pi} } e^-(\frac{(x-\mu)^2}{2 \sigma^2})

       1.9.2 标准正态分布:μ=0,σ=1,N(0,1)~  \frac{1}{\sqrt{2 \pi} } e^-(\frac{x^2}{2})

         1.9.3 正态分布的特点:

                    μ 描述正态分布的集中趋势;

                    σ 描述正态分布的离散程度,σ越大,数据分布越分散;σ越小,数据分布越集中。均值 E(X)=μ,方差 Var(X)=σ^2,密度函数关于平均值对称,平均值是它的众数以及中位数

          1.9.4 正态分布经验法则:

            正态分布N 𝜈,𝜎 2 函数曲线下的面积 :   

                • 68.27%的面积在平均值左右的一个标准差范围内

                • 95.45%的面积在平均值左右两个标准差2σ的范围内

                • 99.73%的面积在平均值左右三个标准差3σ的范围内

                • 99.99%的面积在平均值左右四个标准差4σ的范围内

常用区域图示

1.10 χ^2分布

        1.10.1 定义:

                   设 X~N(μ,σ^2),则 z=\frac{X-μ}{σ}~ N(0,1);令 Y=z^2,则 Y 服从自由度为1的χ^2分布,即 Y~χ^2(1)。 当总体X~N(μ,σ^2) ,从中抽取容量为n的样本,则\frac{\sum_{i=1}^n(X_{i} -\bar{X})^2 }{σ^2}   ~χ^2(n-1)(n-1 是自由度)

           1.10.2 χ^2分布的性质和特点:                                        

卡方分布性质和特点

           1.10.3 χ^2分布图示:

                      随着样本数增大(n≥20),越接近正态分布

卡方分布图

1.11 t分布

        1.11.1 定义

定义和特点

        1.11.2 t分布图示

t分布图

1.12 F分布

        1.12.1 F分布定义

F分布定义

        1.12.2 F分布图示

F分布图

1.13 中心极限定理

中心极限定理定义及图示

1.14 单个样本方差的分布服从自由度为 (n -1) 的χ^2分布

样本方差分布定义及公式

 1.15 单个样本比例的抽样分布,当样本容量很大时,样本比例的抽样分布可用正态分布近似

1.16 两个样本均值之差的抽样分布

样本均值之差的抽样分布公式

1.17 两个样本方差比的抽样分布 服从F分布

样本方差比的抽样分布公式

1.18 置信区间,用 (1-α)%表示,α为是总体参数未在区间内的比例

1.19 评价估计量的三个标准

         1.19.1 无偏性(unbiasedness):估计量抽样分布的数学期望等于被估计的总体参数

无偏与有偏对比图示

         1.19.2 有效性 (efficiency):对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效

有效性演示图

         1.19.3 一致性 (consistency):随着样本量的增大,估计量的值越来越接近被估计的总体参数

一致性演示图

2、参数估计

      2.1 点估计求法

            2.1.1 先确定估计量(即确定函数),再用矩估计法或最大似然估计法求出最有解(目前常用方法是最大似然估计法)。

           2.1.2 矩估计公式

           2.1.3 最大似然估计法详解

                    2.1.3.1 离散型数据

离散数据最大似然定义

                    2.1.3.2 连续型数据

连续数据最大似然定义

                    2.1.3.3 求最大似然估计的步骤

步骤图

                    2.1.3.3 总体服从N(μ,σ^2)正态分布的最大似然估计量的公式

                    2.1.3.4 最大似然估计的性质

3、区间估计

      3.1 总体均值的区间估计

            3.1.1 大样本数据的定义

定义及公式

            3.1.2 大样本数据的例子

            3.1.3 小样本数据的定义

定义图示

            3.1.4 小样本数据的例子

      3.2 总体比例的区间估计

            3.2.1 定义

            3.2.2 例子     

3.3 总体方差的区间估计

            3.3.1 定义

            3.3.2 例子

3.4 总体方差的区间估计

            3.4.1 独立大样本数据的定义

            3.4.2 独立大样本数据的例子

            3.4.3 独立小样本数据(σ_{1}^2  =  σ_{2}^2 )的定义

            3.4.4 独立小样本数据(σ_{1}^2  =  σ_{2}^2 )的例子

            3.4.5 独立小样本数据(σ_{1}^2  \neq  σ_{2}^2 )的定义

            3.4.6 独立小样本数据(σ_{1}^2  \neq  σ_{2}^2 )的例子

           3.4.7 匹配样本数据的定义

            3.4.8 匹配样本数据的例子

3.5 两个总体比例之差的区间估计

            3.5.1 定义

            3.5.2 例子

3.6 两个总体方差比的区间估计

            3.6.1 定义

            3.6.2 例子

3.7 估计总体均值时样本量的确定

            3.7.1 定义

            3.7.2 例题

3.8 估计总体比例时样本量的确定

            3.8.1 定义

            3.8.2 例题

3.9 区间估计总结

4、假设检验

      4.1 两类错误(决策风险)

           4.1.1 第一类错误(弃真错误)

                    原假设为真时拒绝原假设,会产生一系列后果,第一类错误的概率为α(即显著性水平)

           4.1.2 第二类错误(取伪错误)

                    原假设为假时接受原假设,第二类错误的概率为β

           注:一般承认第一类错误,避免出现第二类错误。用一句俗话形容就是‘宁愿错抓一个好人,绝不放过一个坏人’

       4.2 假设检验的流程

             4.2.1 提出假设

                        H_{0} :是某个结果(用来做验证的)

                        H_{1} :是H_{0} 的反结果

             4.2.2 确定适当的检验统计量

                       4.2.2.1 选择统计量的方法与参数估计相同,需考虑

                                   ①、是大样本还是小样本

                                   ②、总体方差已知还是未知

                        4.2.2.2 检验统计量的基本形式为 Z=\frac{\bar{X} -μ_{0}}{σ/\sqrt{n} }

             4.2.3 规定显著性水平α

                      原假设为真时,拒绝原假设的概率(被称为抽样分布的拒绝域),表示为 α,常用值有0.01, 0.05, 0.10。

             4.2.4 计算检验统计量的值                     

             4.2.5 作出统计决策

                       4.2.5.1 两种判断方式:第一种方式,根据给定的显著性水平 α,查表得出相应的临界值z_{α} z_{\frac{α}{2}},   t_{α} t_{\frac{α}{2}},再将检验统计量的值与 α 水平的临界值进行比较, 得出拒绝或不拒绝原假设的结论。第二种方式,利用P值检验, 如果原假设为真,P值是抽样分布中大于或小于样本统计量的概率;单侧检验若p值>α,不拒绝 H_{0},否则拒绝H_{0}; 双侧检验若p值>\frac{α}{2},不拒绝H_{0},否则拒绝H_{0}。总之,无论哪种方式判断,只要检测结果在拒绝域内,就拒绝H_{0}

P值双侧和单侧检验图示

                       4.2.5.2 单侧与双侧检验的选择:

                                    双侧检验适用情况:H_{0}是固定某个结果,如 H_{0} :μ =10 H_{1}: μ≠ 10

                                     单侧检验适用情况:H_{0}大于等于或小于等于某个值,如 H_{0}:μ ≥ 40000   H_{1}:μ<40000

              4.3 检验统计量选择简单总结

检验统计量选择参考图

5、相关分析

      5.1 协方差 Cov(Y,X)=\frac{\sum_{i=1}^n(y_{i}- \bar{y} )(x_{i}-\bar{x})}{n-1} ,Cov(Y,X)>0    Y和X 正相关;Cov(Y,X)<0    Y和X 负相关;受度量单位的影响(不能反映变量间线性关系的强弱)

       5.2 相关系数 是经过标准化后的Y和X的协方差,Cor(Y,X)=\frac{1}{n-1} \sum_{i=1}^n(\frac{y_{i}- \bar{y}}{S_{y}} )(\frac{x_{i}-\bar{x}}{S_{x}} )=\frac{Cov(Y,X)}{S_{y}S_{x}} =\frac{\sum_{}(y_{i}-\bar{y})\sum_{}(x_{i}-\bar{x})}{\sqrt{\sum_{}(y_{i}-\bar{y})^2\sum_{}(x_{i}-\bar{x})^2} }

                5.2.1 性质 Cor(Y,X)=Cor(X,Y),范围[-1,1];不受单位影响,值可以表示Y和X之间线性关系的强度,符合可以表示Y和X之间线性关系的方向

                5.2.2 相关系数的解读

一般|r|≥0.3,表明存在线性关系

                5.2.3 各相关系数的区别

                         ①、皮尔逊相关系数:一般用来计算两个连续型变量的相关系数。

                         ②、肯德尔相关系数:一个连续一个分类(最好是定序变量)。

                          ③、斯皮尔曼相关系数:2个变量无论连续还是分类都可以,但斯皮尔曼是非参数的,会损失信息,尽量不用

                5.2.4 相关系数的缺点

                         ①、Cor(Y,X)=0 只能判断Y和X之间没有线性相关性,无法判断是否有关系(如下图),画散点图观测解决。

Cor(Y,X)=0和可用常用函数来表达关系图示

                         ②、易受离群值的影响,所以当所有变量与Y的相关系数值为0.8时要特别注意,小心陷阱。

离群值的影响图示

               总之,在分析Y和X关系前,画出所有散点图。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,372评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,368评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,415评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,157评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,171评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,125评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,028评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,887评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,310评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,533评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,690评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,411评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,004评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,812评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,693评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,577评论 2 353

推荐阅读更多精彩内容