什么是线性回归?
在监督学习(supervised learning)中:
- x表示输入值;
- y表示输出值(也是预测值);
- (x(i), y(i))被称为训练样本;
- 一组(x(i), y(i)),i=1,...,m,被称为训练集(training set)
注意:这里的上标i指的是序号,而与取幂无关
为了更直观一点,下面是监督学习的流程图(其中h——<b>hypothesis</b>是预测算法生成的线性式):
Andrew举了个房价预测的栗子(一个回归的预测):
这里的房价可以认为是连续的,所以可以模拟一条直线来根据房间面积来预测房价,这就叫线性回归。
但是如果y只是一簇一簇离散的数据,比如根据房屋面积判断是别墅还是平房,那么这样就叫做分类问题。
Cost Function(误差函数)
我们用cost function来评估hypothesis的准确性,这里y(i)是输入为x(i)时的真实值。有时候也称为“Squared error function”或者“Mean squared error”
cost function如何得来?
- 在这里由于误差项可正可负,相加时会正负抵消,这样就无法区分没有偏差和政府偏差相抵消时的情况。因此,我们使用误差的平方和,并令其最小,这样的方法也叫做最小平方发(Least Squares Method)。
- 后面我们就会知道为什么除的是2m而不是m,这里简单说一下:
除以2m,是用来简化其数据,make it easy。