【数据分析商业实战】chapter4课程笔记

本章主要知识点为:参数估计,假设检验,方差分析,相关分析,线性回归。


1 均值的误差为标准误,是均值的误差 ,其计算公式为样本的标准差/样本数开根号

2 无论任何分布的均值都是正态分布,因为中心极限定律。均值的样本数越多 ,正态分布的拟合程度就越高。

3 qq图 是用于检测样本的是否符合正态分布,其对角线为正态曲线,在曲线上的点越多,则其越符合正态曲线。


4 落在蓝色区域拒绝 ,在白色区域之内接受原假设。



# 假设检验

1 假设 真假设和反面假设 

2 确定置信度 

    小于100 90%

    100-500 5%

    500-1000 1%

3 收集 数据

4 看样本和均值的绝对的差是几倍的样本均值的标准误

t = (样本均值-假设均值)/ 标准误

 z值越大 说明约不靠谱 哈哈哈 

p值为两边的面积的和

一般样本量不超过5000



# 两独立样本T检验

其检验均值是否相同

p值显著 ——小于设定的显著度


levene 方差齐性检验

1 方差相等  or  2 方差不相等

相等与否对检验差异影响不大



#  方差分析

sst 总体变异——全部的离差平方和

sse 组内变异——组内的离差平方和

ssm组间变异——组均值和均值的离差平方和

F = 【ssm/自由度】/【sse/自由度】 越大越好,但是这个值算出来之后要依据经验来判定是否合适

# 相关分析

# 查看两个变量之间的关系,一个标量该改变另外一个变量的均值是否有关系

相关系数person相关——查看线性关系

对于发散变量取对数



# 线性回归


1 线性关系

2 抛物线关系

3 对数关系


在变量显著的情况下(第二个表P值很小的时候),这个变量才是对结果有意义的。不显著的变量可以直接删除,

coef表示每增长10000个单位 INcome增长97

不懂呀!!! 

Intercept 是截距项

在上面第一个表示用来做模型结果评价的,

R-squared 是用于描述模型优劣的,是模型的结实度

ADJ R-squared 在多个模型比较的时候有意义,用于选择模型用

Prob 用于看模型的显著度,只要有一个变量显著就是显著的

AIC、BIC用于筛选莫模型

后面是对残差的检验。



R方的解释

多元线性回归

去除无法提供增量信息的X(也就是去除共线的X)

AIC/BIC 越小模型越好

 逐步加变量(n^2/2)

step1 两两检验,逐步筛选,随机森林(更具变量的数据量 ),iv(一个要计算几秒或者几十秒),最后逐步法

线性回归在正态分布式稳定的,不正态的环境下非稳定。


作业笔记

1 对于左偏数据需要对数据进行对数处理

2 一般在做检验的过程中样本量不宜超过5k,作业的样本量为16k,这个数据可用于统计性描述,单不建议用于假设检验中。

? 3 how to 在describle中对数值型的分类变量进行分类

4 一般直方图的柱子在20-50之间最佳

5 在看最大最小值的时候需要看到样本最本质的细节状态

6 在做离散变量对因变量的观测时,最好能按照中数单调递增或者单调递减的方式来进行。如果中位数值与下个箱子的下边界重合,说明有明显差异。

7 做两个自变量的相关关系可以判断自变量的值是否共线

8 在做变量相关性分析的时候,如果变量相关性过小,回归分析的时候还是可以用的

9 对于连续变量,无论是自变量还是应变量,都需要取对数。

🤩

描述性统计是对假设检验提出的前提条件,是否符合需要进一步做假设检验。

根据样本量抽样,通过线性回归的p值初步检验,在变量集中选出200-300个变量即可。

分层抽样——how to 按照比例分层抽样

how to 保证分层抽样的稳定系,按照不同自变量情况多分几个层次


对分类变量可以做哑变量编码,会提高模型的准确性。保留K-1个哑变量

用小写的ols ,因为有惩罚项。


什么时候考虑交互项:在不同的变量对另外的应变量斜率是不同的



对于数据分析的基本步骤

1 观测因变量的数据分布情况 

    数据分布,最值情况,数据分位点情况

2 观察自变量的分布情况

    离散变量的每个值的数据量,与因变量之间的关系

    连续变量的数值分布情况,与因变量之间的关系

3 进行假设检验

    初步用线性回归模型预测数据

    

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351

推荐阅读更多精彩内容