模型背景
使用最小二乘法找到一条直线,使测试数据中的每个点离直线的欧式距离最短
业务背景
在公司月中的日报中,需要提供对本月业务进行监控,按照已经发生的业务,对本月业务进行预测,按照预测数据,对经营风险进行监控,提前预警。
对于类似于零售的分析,物流行业也有类似的思路:
1.与本月已经过去工作天比例有关。如果一个月算21天,截止到尽头已经过了15天,那么保证本月100%完成业务目标的话,那么应该完成15/21=71.4%的业务量。由于实际业务量,每天不一样,比如周一的业务量比周五低,月初的业务量比月底低,因此本月已经过去工作天应该计算出一个每日工作天系数,比如周一是0.9天,周五是1.2天。具体计算可以参考同比或者环比的实际数据。
2.已经过去工作天完成的业务量数据。包括已经发送快递的票数,重量,金额。
3.每月月底会有一部分业务数据由于寄送地点比较远,所以业务金额将未能结算在本月内,所以需要减去这部分业务量,一般与最后一周有关,因此将最后五天的业务量分别列出来5个指标。
数据处理
1.对于本月已经发生的业务量,其中金额=重量*单价,如果重量高的话,即大于20公斤,那么需要对每一票的大于20kg的运单进行运费预测
2.对所有特征值进行相关性分析,提出有强相关的特征
模型解读
多元线性回归,调用R语言的Summary函数,可以看到模型说明数据,主要关注:
模型估计出来后,我们要回答的问题是:
我们的模型拟合程度如何?或者说,这个模型对因变量的解释力如何?(R2)
整个模型是否能显著预测因变量的变化?(F检验)
每个自变量是否能显著预测因变量的变化?(t检验)
1.残差的分布。表示真实值-模型预测值,可以表示模型在预测方面的误差大概多大。
2.每个参数显著水平,如果显著水平低于0.05,表示拒绝原假设,这个参数在结果的预测方面是显著的。
3.模型的R平方。表示参数对于预测结果的解释度,例如R平方为63%,则表示结果变化的63%与参数解释。
4.模型的P值,表示模型的显著水平,需要低于0.05
模型验证与调优
1.处理参数。将参数转化成因子参数等
2.向后消元法。update函数,step函数取AIC最大值
R语言
使用R语言的stats包中的lm函数
用predict进行预测