第四章 关于统计资料类型的思考
1. 分类变量有序和无序是怎么确定的?
有序分类资料:体现有序,体现等级的意义,需进行秩和检验;否则可进行卡方检验
无序分类资料:不体现分类之间的等级差别,进行卡方检验
1. 连续变量是否需要转换为分类变量?
- 出于实际意义考虑,有时分类变量更易于理解
- 连续资料本身与结果变量之间并不是线性关系
2. 连续变量如何分组?
- 当样本量较小时,不要划分太多组,最好只分为两类
- 即使样本量足够大,作为参照组的一组样本量绝不能太少,否则会导致结果不稳定
- 应用广义可加模型(该模型主要用于探索自变量与因变量的关系)寻找cut-off值
- 利用ROC曲线寻找cut-off值,此时只能将连续变量分为2组(仅适用于因变量为二分类变量)
- 应用最大选择秩统计量来划分(适用于分类变量,连续变量,生存数据)
- 应用分类决策树(引入“熵”的概念,“熵”反应不确定度,即不纯度)
- 应用聚类分析(无监督,适用于无因变量的一组自变量)
3. 什么是虚拟变量(哑变量)?
- 哑变量是将多分类变量转换为二分类变量的一种形式
- 优点:解决自变量与因变量是非线性关系,虚拟变量可以更真实的展示二者关系
- 缺点:把多分类变量转换为哑变量后,自变量数目增多,对于样本量不是很大的情况下,增加结果的不稳定性
第五章 如何正确展示你的数据
1. 均数和中位数
- 正态分布的数据用均数,偏态分布的数据用中位数
- 如果遇到偶数,中位数是居中的两个数的平均数
2. 方差与标准差
- 方差和标准差是衡量变异最常用的指标
- 离均差是指偏离均数之差,即每个数值分别与均数相减之差;离均差平方和是对每个差值求平方,然后相加的总和;在样本量不同时,离均差平方和不能很好的反响差异,故引入方差的概念
-
方差是离均差平方和除以例数,本质是一个平方数,对于指标而言,其平方数没有实际意义(例如收入的平方是什么?很难理解),故引入标准差的概念
-标准差是方差的平方根,去除了平方,更有实际意义 - 需要注意的是,我们通常计算的都是样本的方差,而不是总体的方差,统计的思维是拿样本去估计总体
3. 自由度
- 自由度是计算样本统计量时能够自由取值的数值的个数
- 不同的统计方法中,自由度都不一样,基本原则是每估计1个参数,需要消耗1个自由度
4. 百分位数
- 百分位数是度量相对位置的重要指标
- 第100百分位数即最大值,第0百分位数即最小值,第50百分位数即中位值
- 第75百分位数称为上四分位数(Q3表示),第25百分位数称为下四分卫数(Q1表示),二者之差称为四分位数间距
5. Z值
- Z值是另一个应用更为广泛的度量相对位置的指标,也是我们通常所说的标准化
- Z值反应某个值X偏离均数μ的标准差倍数
- 数据一旦标准化,都变成了以0为均数,以1为标准差的分布
- 无论原始数据的度量单位是什么,标准化后都可以在同一水平上进行比较
- 中心化是每个原始数据X减去其均数μ后得到的值,相当于标准化的分子部分
- Z值得两个常见应用
- 比较不同单位的指标 (Z值为标准化后的值,可以对不同单位的指标进行比较,例如比较两种不同考试的成绩)
- 判断异常值 (在标准正态分布中,大于3倍标准差的值是很罕见的,只有不到0.3%,如果一个数值的Z值超过3,提示其可能是个异常值,如果是非正态分布,则不一定适用此标准)
- Z值转换并不能改变数据的分布
第六章 中心极限定理
1. 中心极限定理
- 含义:假定有一个总体数据,如果从该总体数据中多次抽样,那么理论上,每次抽样所得到的平均数与总体平均数应该差别不大,大致围绕在总体参数(如均数)的中心,并且呈正态分布
- 中心极限定理是针对抽样样本的平均数,而不是针对原始数据的,虽然样本量大于30时,统计量基本呈正态分布,但不代表原始数据服从正态分布
2. 中心极限定理的规律
- 如果从总体中进行多次抽样,那么绝大多数样本统计量都会紧密围绕在总体参数周围,这些样本统计量以总体参数为中心呈正态分布
- 每次抽样的样本量越大,根据样本计算的统计量越接近总体参数;样本量越大,越容易得到一个接近总体参数的统计量
- 无论总体是什么样的分布(正态的、偏态的、均匀的),样本统计量始终是呈正态分布的,尤其是在样本量较大的时候
-根据中心极限定理,当抽样样本量大于30时,样本的均数即服从正态分布,但不意味着就可以简单的进行t检验,这里只能说明均数服从正态分布,而不代表数据本身服从正态分布
第七章 假设检验
1. 假设检验、零假设、备择假设
- 假设检验就是“检验”我们所做的“假设”到底对不对
- 假设又分为零假设和备择假设;一般零假设是想推翻的,备择假设是想证实的
- 零假设通常用H0表示,它的假设一般是组间差异为0,两个变量的相关系数为0,回归系数为0等;有时零假设中的参数可以不为0,视实际意义而定
- 备择假设通常用H1表示,它与零假设相对立
- 假设的检验有很多种,最常用的是经典统计方法;先根据收集的数据计算一个统计量,然后根据相应的分布计算出至少得到该统计量的P值是多少,最终做出结论
- 假设的检验是在零假设成立的条件下计算出来的
2. 假设检验中的两类错误
- Ⅰ类错误,即假阳性率,造成误诊、矫枉过正,通常设为α = 0.05
- Ⅱ类错误,即假阴性率,造成漏诊、包庇纵容,通常设为β = 0.1或0.2
- 把握度(功效),即1-β(Ⅱ类错误),是正确判断的能力
3. P值
- P值跟差异的大小无关,差异的大小与样本量相关
- P值小于0.05认为是小概率事件,统计学上就认为不大可能发生
第八章 参数估计
根据样本统计量来估计总体参数,这就叫参数估计;参数估计又分为点估计和区间估计; 点估计更为准确,但未必可靠;区间估计 更为可靠,但不够精确
1. 点估计
- 根据中心极限定理,多次重复抽样,所得多个统计量应该都是围绕总体参数进行波动的,多个统计量的均数应该等于总体参数
2. 最小二乘估计
- 主要用于线性回归的参数估计,其思想是求一个是的实际值和模型估计值之差达到最小的值,将其最为参数估计值
- 最小二乘均数是指矫正其他因素之后的均数
3. 最大似然估计
- 最大似然估计就是最大可能性的估计,就是说我们获得样本数据,根据已知的样本结果,反推找到一个估计值,使得最大可能出现现有结果
4. 贝叶斯估计
- 基于先验信息的一种估计方法,即根据已有的一些经验,把经验纳入估计过程中,从而得到估计值
- 经典的频数统计学派认为总体的参数是固定的,而样本统计量是随机变量,但是贝叶斯认为总体的参数也是随机变量,服从某一概率的随机变量;贝叶斯重点研究的是参数的分布
第九章 置信区间估计
1. 95%置信区间
- 置信区间估计是区间估计,95%置信区间的确切含义是有95%的信心认为该区间包含了总体的参数
- 置信区间的宽窄反应了对参数估计的精确度,置信区间越窄,说明估计越精准;置信区间越宽;说明估计不精准,但更为可靠,然而这种可靠,由于精准度差,往往没什么实际价值
2. 置信区间与P值
- 置信区间与P值在做出统计学结论时有异曲同工之妙,但置信区间可以提供的信息更多
- P值只是告诉我们一个概率,即当零假设成立时,出现当前结果(或者更极端结果)的概率
- 置信区间不仅可以做出统计结论,还可以提示与零假设的参数偏离有多远;可以提供给我们一些更有实际价值的信息
3. 标准误
- 标准误是样本统计量的标准差,是用来衡量抽样样本之间的差异,它反映了样本平均数的离散程度,是描述对应的样本统计量抽样分布的离散程度及衡量对应样本统计量抽样误差大小的尺度
- 标准差是一个描述性指标,只是描述原始数据的波动情况,是描写叙述数据点在均值(mean)周围聚集程度的指标;而标准差是一个跟统计推断相关的指标
- 标准误理论上需要通过多次抽样的多个样本的统计量获得,但是实际中我们只抽样一次,此时标准误= 标准差÷根号n(样本量),可以看出,样本量越大,标准误越小
- 95%置信区间= 参数估计值±1.96x标准误,注意此种计算方法只限于样本量足够大的情况,根据中心极限定理,从任何分布中抽样,只要样本量足够大,其统计量终会服从正态分布
4. 利用Bootstrap法估计置信区间
- Bootstrap法可以用来估计未知分布情况的参数的置信区间,可用来估计中位数、回归系数等多种参数的置信区间