回归一词最早由法兰西斯·高尔顿(Francis Galton)所使用。他曾对亲子间的身高做研究,发现父母的身高虽然会遗传给子女,但子女的身高却有逐渐“回归到中等(即人的平均值)”的现象。不过当时的回归和现在的回归在意义上已不尽相同。
在开始理解回归分析之前,先有个二手房房价的例子,假设这里的房价只和面积,居室情况两个因素有关,那么我们就有下列的数据形式
面积 居室 房价[万]
80 2 103
100 2 120
90 3 125
60 2 85
75 3 100
100 3 150
实际情况是有更多的因素,在这里为了方便演示,使用二维数据,其他的情况,继续增加就可以了。现在需要根据上面这些数据,构建一个模型,能够预测给定一个面积和居室情况,能够估算出房价情况。。
假设面积因素为 x1,居室因素为 x2,房价为 h,那么
上面公式中,想是已知,\theta 是未知,需要求解。上面的公式进一步处理
根据矩阵点乘:
如果我们已经推断出θ,那么,我们的真实值和推断值之间的误差ϵ也就得出了,用真实值减去推断值即可,换句话就是
假定我们的样本是独立的,也就是每家卖房子都是根据自己的情况来决定价格的,那么我们的误差就服从一个正态分布,并且μ=0(这是因为θ0的存在,总可以达到均值为0),方差为σ2.
(1)号公式就是似然函数,接下来我们就围绕着这个似然函数进行进一步分解。
因为ϵ(i)满足正态分布,那么
从(1)式得到
将3式带入2式进行推导
公式4不在包含ϵ(i),该公式的含义就是给定θ,根据 xi可以推算出y(i)的概率密度。
又因为是独立的样本,联合概率=各自概率的和,那么得出
(5)式两边取对数
需要θ取最大值,那么就需要
(7)就是最小二乘公式的由来,接下来如何求解这个目标函数呢?使用梯度下降法,具体推导如下