回归分析着重在寻求变量之间近似的函数关系。在现实世界中存在着大量这样的情况,两个或多个变量之间有一些联系,但是没有确切到可以严格决定的程度。例如,人的身高和人的体重有联系,一般表现为X大时Y也倾向于大,但X并不能严格决定Y。一种农作物的亩产量Y与其播种量X1 和施肥量 X2有联系,但X1和X2又不能严格决定Y。 一般Y称为因变量,X称为自变量。但是X,Y并不是明显的因果关系。例如决定亩产量Y的因素有很多,远不止播种量X1和施肥量X2,灌溉情况,气温变化,灾害等都会影响亩产量Y。已考虑的因素X1和X2只能在一定程度上影响Y,其他因素都归为随机误差。
于是回归模型定义为
Y= f(X1,X2,....,Xp)+e,其中e作为随机误差,其均值为0 ,E(e)=0
设ε为一个随机变量,则E(ε-c)的平方作为c的函数,在c=E(ε)处达到最小,由于这个性质,可以对理论回归函数f(x1,x2,...xp)做下面的解释,如果我们只掌握了因素X1,X2,..Xp,而希望利用他们的值尽可能好的逼近Y的值,则均方误差最小的意义下,以使用理论回归函数最好。
但在实际问题中,理论回归函数一般总是未知的,统计回归分析的任务,就在于根据X1,X2,..Xp和Y的观察值,去估计这个函数,一级讨论于此有关的种种统计推断问题。所用的方法,在相当大的程度上取决于模型的假定,也就是对回归函数f及随机误差e所做的假定。
其中在应用上最重要且在理论上发展的最完善的特例,是f为线性函数的情形。
f(x1,x2,...,xp) =b0+b1x+..+bpxp.这种情况叫线性回归。
如果自变量变化范围不大,而曲面y=f(x1,x2,...,xp)弯曲程度也不过分,则在该较小的范围内,他可以近似用一个平面(即线性函数)去代替,而不至于引起过大的误差。
E(Y-f(x1,x2,..,xp))的平方=E(e的平方)=Var(e)=δ方,δ方越小,用f(X1,X2,。。,Xp)逼近Y所导致的均方误差就越小,回归方程就越有用。
δ方的大小由两点决定,
1,在选择自变量的时候,是否把对因变量Y有重要影响的那些都收进来了。
2 ,回归函数的形式是否选的准,
另外,预测问题和回归函数虽然实质上很不一样,但两者的解法一致,二是预测的精度要比估计回归函数的精度差,因为在预测中,除了估计回归函数有一个误差外,还要加上一个随机误差e,这一点在考虑区间估计中更能清楚的看出来。
还有就是控制,在这类应用中,不妨把自变量解释为输入值,因变量解释为输出值,目标是要把输出值控制在给定的水平y0.例如,X为用药量,Y为生理指标,血压,调整用药量使徐亚达到某种认为是正常的水平。