本章主要知识点为:参数估计,假设检验,方差分析,相关分析,线性回归。
1 均值的误差为标准误,是均值的误差 ,其计算公式为样本的标准差/样本数开根号
2 无论任何分布的均值都是正态分布,因为中心极限定律。均值的样本数越多 ,正态分布的拟合程度就越高。
3 qq图 是用于检测样本的是否符合正态分布,其对角线为正态曲线,在曲线上的点越多,则其越符合正态曲线。
4 落在蓝色区域拒绝 ,在白色区域之内接受原假设。
# 假设检验
1 假设 真假设和反面假设
2 确定置信度
小于100 90%
100-500 5%
500-1000 1%
3 收集 数据
4 看样本和均值的绝对的差是几倍的样本均值的标准误
t = (样本均值-假设均值)/ 标准误
z值越大 说明约不靠谱 哈哈哈
p值为两边的面积的和
一般样本量不超过5000
# 两独立样本T检验
其检验均值是否相同
p值显著 ——小于设定的显著度
levene 方差齐性检验
1 方差相等 or 2 方差不相等
相等与否对检验差异影响不大
# 方差分析
sst 总体变异——全部的离差平方和
sse 组内变异——组内的离差平方和
ssm组间变异——组均值和均值的离差平方和
F = 【ssm/自由度】/【sse/自由度】 越大越好,但是这个值算出来之后要依据经验来判定是否合适
# 相关分析
# 查看两个变量之间的关系,一个标量该改变另外一个变量的均值是否有关系
相关系数person相关——查看线性关系
对于发散变量取对数
# 线性回归
1 线性关系
2 抛物线关系
3 对数关系
在变量显著的情况下(第二个表P值很小的时候),这个变量才是对结果有意义的。不显著的变量可以直接删除,
coef表示每增长10000个单位 INcome增长97
不懂呀!!!
Intercept 是截距项
在上面第一个表示用来做模型结果评价的,
R-squared 是用于描述模型优劣的,是模型的结实度
ADJ R-squared 在多个模型比较的时候有意义,用于选择模型用
Prob 用于看模型的显著度,只要有一个变量显著就是显著的
AIC、BIC用于筛选莫模型
后面是对残差的检验。
多元线性回归
去除无法提供增量信息的X(也就是去除共线的X)
AIC/BIC 越小模型越好
逐步加变量(n^2/2)
step1 两两检验,逐步筛选,随机森林(更具变量的数据量 ),iv(一个要计算几秒或者几十秒),最后逐步法
线性回归在正态分布式稳定的,不正态的环境下非稳定。
作业笔记
1 对于左偏数据需要对数据进行对数处理
2 一般在做检验的过程中样本量不宜超过5k,作业的样本量为16k,这个数据可用于统计性描述,单不建议用于假设检验中。
? 3 how to 在describle中对数值型的分类变量进行分类
4 一般直方图的柱子在20-50之间最佳
5 在看最大最小值的时候需要看到样本最本质的细节状态
6 在做离散变量对因变量的观测时,最好能按照中数单调递增或者单调递减的方式来进行。如果中位数值与下个箱子的下边界重合,说明有明显差异。
7 做两个自变量的相关关系可以判断自变量的值是否共线
8 在做变量相关性分析的时候,如果变量相关性过小,回归分析的时候还是可以用的
9 对于连续变量,无论是自变量还是应变量,都需要取对数。
🤩
描述性统计是对假设检验提出的前提条件,是否符合需要进一步做假设检验。
根据样本量抽样,通过线性回归的p值初步检验,在变量集中选出200-300个变量即可。
分层抽样——how to 按照比例分层抽样
how to 保证分层抽样的稳定系,按照不同自变量情况多分几个层次
对分类变量可以做哑变量编码,会提高模型的准确性。保留K-1个哑变量
用小写的ols ,因为有惩罚项。
什么时候考虑交互项:在不同的变量对另外的应变量斜率是不同的
对于数据分析的基本步骤
1 观测因变量的数据分布情况
数据分布,最值情况,数据分位点情况
2 观察自变量的分布情况
离散变量的每个值的数据量,与因变量之间的关系
连续变量的数值分布情况,与因变量之间的关系
3 进行假设检验
初步用线性回归模型预测数据