CDA level I考试大纲 Part1 数据分析概念与统计学基础 占考试比例的30%; 共分5个知识方向,考试占比分布如下:数据分析概念,方法论 流程 5% 描述性统计分析 12% 推断性统计分析8% 方差分析2% 一元线性回归分析3%;
Part 1的部分前面两个文章已经记录了 25%的考试分布,本次主要记录方差分析和一元线性回归分析,合计考试分布占比5%;
方差分析:
大纲要求熟知:单因素方差分析的基本步骤,总离差平方和(SST)含义和计算,组间离差平方和(SSA)得含义和计算 组内离差平方和 SSE的含义及计算,单因素方差分析的原假设
一,方差分析的相关概念原理:
1,单因素方差分析:将所得数据按某些项目分类后,分析各组数据间有无差异的方法。本质是检验多个总体均值是否想等,计算过程可理解为 变异分解过程。
2,方差分析的基本原理:方差的可加性原则。
二、单因素方差分析的基本步骤,总离差平方和(SST)含义和计算,组间离差平方和(SSA)得含义和计算 组内离差平方和 SSE的含义及计算
1,方差分析的基本假设:
每个总体都应服从正态分布
各个总体的方差必须相同
观察值是独立的
2,单因素方差分析的基本步骤
提出假设:H0:μ1=μ2=μ3,各个水平均值相等,即自变量对因变量没有显著影响
构造检验统计量(F统计量)
统计决策(根据P值)
3,计算F统计量的过程
a,变异分解
总体平方和���
组间平方和
组内平方和
SST = SSA + SSE
b,计算均方
组间均方 MAS=SSA/(k-1) SSA的自由度为K-1
组内均方 MSE=SSE/(n-k)SSE的自由度为n-k
c,计算检验统计量F
F=MSA/MSE ~F(k-1,n-k)
d,统计决策
将F 同显著性水平临界值比较.
F>Fα p<α 拒绝原假设
F<Fα p>α不拒绝元假设 有显著性影响。
三,单因素方差的SPSS实现(考试中基本没有此处)
操作流程:分析-比较均值-单因素
界面说明:因变量列表:选入连续变量,可多选,但结果是对因变量逐一进行检验,
因子选入 多分类的变量,即 自变量
对比:
多项式:将组间方差平方和分解为不同形式的趋势成分
系数:用于因素不同类别间的检验
两两比较:
方差齐性:
LSD:实际上是t检验的变形,只是在变异和自由度的计算上利用了整体样本的信息,仍然存在放大1类错误的问题
Scheffe:当各组人数不等,或进行较为复杂的比较时,比较稳妥
SNK:运用最广泛的一种两两比较。它采用student range分布进行所有各组均值间的比较
方差不齐:
建议games-howell稍好一点,但最好用非参的方法
简单线性回归分析
大纲要求熟知:相关关系的概念和特点,相关关系与函数关系的区别与联系。相关关系的种类,相关系数的意义,以及利用相关系数的具体数值对现象相关等级的划分,回归分析的概念,主要内容和特点,建立一元线性回归方程条件,应用回归分析应注意的问题,估计标准误差的意义及计算
一。线性相关的概念
由于各类不确定因素,数据点基本落在直线周围,我们称为具有线性相关。
正线性相关
负线性相关
完全线性相关
非线性相关
如果相关系数是根据变量的样本数据计算的,即为了推断总体,那么则称为样本相关系数。即为r,(Pearson相关系数)
r的取值范围为[-1,1],绝对值越接近1则相关性越强,且有以下情况成立:
r=1,完全正相关
r=-1,完全负相关
r=0,不存在线性相关关系
-1<r<0,负相关
0<r<1,正相关
按照习惯对相关强度进行了分级
r绝对值大于等于0.8,高度相关
r绝对值介于0.5-0.8之间,中度相关(含0.5)
r绝对值在0.3-0.5之间,低度相关(含0.3)
r绝对值小于0.3,可视为不相关
我们运用t检验来验证两个变量是否存在线性相关关系
原假设,H0,ρ=0,两变量间无直线相关关系
检验统计量t
散点图适用条件:
数据间相互独立,变量为连续变量,两边两间关系是线性的。
二、简单线性回归的概念条件,内容,特点。
回归分析可以解决的问题:探索影响因变量的可能因素,利用回归模型进行预测
相关与回归间的关系:相关分析侧重反应散点的疏密程度,回归侧重反应散点的趋势程度
线性回归基本过程:
最小二乘法:希望得到一个一元线性回归方程,使得因变量样本值,到估计值之间的2次距离总和最小,
三、一元线性回归的评价与检验
第一步:总平方和分解
第二步,计算判定系数 r方
r^2=ssr/sst 即平方和占误差平方和的比例。
第三步,残差标准误差
第四步:线性关系检验
提出假设 H0:β1=0,线性关系不显著
设定临界值:确定显著性水平α,并根据自由度,找出临界值Fα
决策 若F>Fα,P<α 拒绝H0,否则不拒绝H0
第五步 回归系数检验
提出假设 H0:β1=0,线性关系不显著
设定临界值 设定显著性水平α 根据自由度n-2,确定临界值tα/2
决策 t的绝对值>tα/2,即p<α,拒绝H0,否则不拒绝H0
四,线性回归模型的假设
线性关系
随机抽样
期望为0
同方差
正态性