SAS提出了一套数据分析的流程
1.抽样S:导入,过滤选取某些条件的样本,抽样
2.探索E:数据分布是什么样子的?平均数。数值之间是否存在一定的相关性。特征选择。
3.修改M:删除一些不必要的特征
4.建模M:逻辑回归,
5.评估:模型比较,评分
** 数据分析流程**:在经过这个过程之前,你还必要对业务非常了解(所以之前去做HIS调研,或者阅读相关政策文件,去和业务方沟通是非常必须的),才能知道数据分析的目的是什么;收集数据(就相当于在解决方案出来之后,去找合作方要数据,然后再对数据做清洗)
** 离散变量** :只能用自然数或者整数单位计算的,比如设备台数、男生个数;
** 连续变量**:在一个区间内可以任意取值。男生的身高;销售额是连续变量,销售量是离散的还是连续的?得看销售量是怎么定义的,如果是重量,那应该是连续的,如果是个数,那就是离散的
** 描述统计**:平均值、最大值、最小值、均值、期望、方差、标准误
- 均值与期望:离散型变量的期望就是总体的均值,均值是在一组数中求平均,而期望是在一个大样本中,通过抽样来预测大样本的均值。反应一组变量的集中程度。
- 中位数:
- 方差:是反应一组变量取值的分散程度。如果是比较两组数据的离散程度,会考虑使用变异系数=标准差/平均数
- 标准误:是统计推断可靠性的指标,代表样本统计量与总体参数值的偏离程度
- 均值的标准误:标准差/sqrt(N)
- 推断一组数据是否服从正太分布,会使用偏度系数和峰度系数来反应偏离正太分布的程度。
- 偏度:描述某变量取值分布对称性的统计量。如果右边有长尾巴,则右偏,>0。左偏<0
- 峰度:;某变量所有取值分布形态陡缓程度,与正太分布相比,如果>0.表示尖顶峰。
- 协方差:多维随机变量,两个随机变量之间关系的数字特征。如果协方差为正,两个变化趋势相同,如果为0,则两个变量不一定相互独立,但是相互独立,协方差一定为0
- 算数平方数和几何平均数:(a1+a2)/2;开根号(a1*a2);几何平均数是一种计算平均发展速度时常用到的
置信区间
- 显著性水平:α,假设H为真,但是H被拒绝的概率。。小概率发生的概率,这个值越大,原假设被拒绝的概率越大。
- P值
- 置信水平(置信度):假设H为真,H被接收的概率。总体参数值落在样本某一区间的概率1-a。
- 置信区间:样本统计值与总体参数值的误差范围,如果区间很大,可以理解为总体很包容,被接受的概率大,置信水平高。
自由度:df。自由度指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本含量,k为被限制的条件数或变量个数(比如说已知样本的均值,自由度就要减1,因为第n个数的取值是由平均值和前n-1个数就可以确定的)
相关系数:两组数据间是否有无关系,如果|相关系数|>0.7说明两者存在某种关系,如果值是负的则代表是负相关;
** 相关关系与因果关系 :很多事物之间是有相关关系,A增长B也会随之增长,不一定是因为A导致了B,因果关系是有方向的。但是相关关系是没有方向
确定关系:已知边长得到面积,可以表示为函数关系的就是确定性关系。
其实回归研究的是一种相关关系,而不是确定关系。因为存在其他影响Y的因素还有很多,包括一些我们还没有发现的,和一些随机因素,因此自变量X只能在一定程度上决定y,回归方程是用确定性的函数关系来近似地描述非确定的相关关系。
** T检验:检测两组数据是否有差异,
** 样本 **:调查某中学300名中学生的视力情况中,样本是300名中学生的视力情况(注意不是300名学生),而样本容量则为300.
** 数据的分布情况 **:
- 偏分布:如果中位数>平均数,则说明数据偏左,存在一些极小值,如果一些极大值,平均数>中位数,数据偏右,右边有长尾巴。
- 双峰数据:直方图中出现了两个峰,这是由于两种不同分布的数据混合到一起造成的,要把数据分层.
- 长尾分布
** 常见的数据检验方法 **:做一个假设,并对该假设作出是拒绝还是接受
** 最大似然估计 **:
** 回归 **:使用最小二乘法直线拟合来执行回归分析,很多个变量对目标有什么影响;在excel里面有p-value,相当于假设检验