---------------
一。。。。
分析--回归--自动线性建模--
将“购买用户数”移置目标
日期 移置字段
--模型选项--勾选与测试保存到数据集--运行
1.字段 选项卡
字段主要用来设置自动线性回归的 模型的因变量,和自变量
spss中默认变量都是自变量,我们将因变量移入 目标目标中即可
2.目标项目:
1)创建标准模型
2)增强模型准确度bosting方法,可以生成模型bosting,使用boosting构建在整体模型的方法,可生成一个模型序列来获得更多精确的预测值,与标准模型相比,整体模型需要更长的时间来构建预测评分
3)为大数据创建模型型,通过将数据集拆分成单独的数据快来构建整体模型的方法,主要用于大型数据进行建模
模型选择
筛选方法:
1.不做筛选,所有自变量都参与模型建立
2.向前步进,将自变量逐个引入模型并进行统计显著性检验,直至在也没有不显著的自变量从回归模型中剔除为止(AICc)
3.最佳子集:用统计学中变量选择模型算法进行自动筛选最佳自变量,选择过程中考虑了所有变量组合方式,(在变量超过10个以上,不推荐使用)
评价模型标准:信息准则的数值越小表示模型越好,但没有绝对的数值大小标准。
Aic赤池信息量准则只是用胡大样本数据(AICc,为了使用小样本数,在AIC准则的共公式上进行调整修正,适用于任何样本量。
BIc贝叶斯信息量准则
模型选项卡:
可以将预测的变量名为其他变量名称-
----------------------------------
二。
模型解读:
1.进度条图来表示模型拟合的效果,他看类似于普通线性回归中的R2(决定系数)(一般模型准确度大于70%就算你和的不错,60%以下就需要修正模型,可以通过增加或删除变量后再次建模进行修正,本例中达到了95.6%,效果不错
2.自动准备数据
第二张图是建模的自动准备数据过程的信息,比如各个变量的角色,对其进入模型之前都做过那些预处理操作,厂家呢处理就是李群智,缺失值等处理,只要勾选(自动准备数据)复选框,SPSS就会自动进行处理
3.预测变量重要性图
模型中每个变量的重要性(重要性的综合为1)
4.预测-实测散点图
预测值与实际变量绘制的散点图(横轴为实际变量的值,纵轴为预测值)
他用来考察预测效果,如果效果好,数据应该在一体哦啊45°线上分布,本列中预测值与实际值比较接近,预测效果比较好
5.残差图
实际值与预测值之间的差
残差图用于回归诊断,也就是来判断当前模型是否满足回归模型的假设(在理想条件下,服从正态分布)图中的直方图,与正态分布曲线是一致的,可以得出残差图是接近正态分布的结论。满足回归模型假设
6.离群值
强影响点(离群值)的诊断
库克距离越大的个案对回归你和影响的成都越大,此类个案可能会导致模型准确度下降
7.回归效果图
回归效果图:用于展现及比较各个自变量对因变量的重要性。每个显著地连续变量将均作为一个模型项,并对应一条直线,如果有显著的分类纳入模型,那么模型将分类变量的每一种显著地类别分别作为一个,模型项,并分别对应一条线条。
线条的顺序:按照自变量的重要性大小降序排列的
线条的粗细:表示显著性水平,相助性越高,其线条越粗,将鼠标一致线条上,可以查看相应变量的具体信息,显著新和重要性
p<0.01 说明具有极其显著性的统计学意义
8.回归系数图
模型中最重要的一张图,与上个回归分析国土表相比,多了截距,回归系数等信息,用颜色区分回归系数的正负,蓝色-正数,橙色--负数
线条顺序,按重要性降序排列
粗细;表示回归系数显著水平
鼠标移到线上,可观察相应的具体信息:回归系数,显著性,重要性
9.均值线图
因变量宇各个自变量绘制的均值线图
用直观的形式帮助饿哦么 研究变量与各个自变量之间的关系
不显著的自变量不会生成对应的均值线图
10.模型构建摘要图
用于模型构建过程中的信息
AICc值从做导游一次递减,(随着自变量逐渐选进模型,是的模型拟合效果越来越好。)
----------------------------------
三。模型预测
1.直接将预测值保存到数据集
2.在原数据增加一列预测值的方式到预测之外
实用程序--评分导向