课程:吴恩达机器学习
一个监督学习的例子——房价预测
使用的是一组俄勒冈州波特兰市的城市住房价格的数据。根据不同的尺寸的房间对应的不同售价,组成的数据集来画图。
-
你有一个朋友想要卖房子,假设房子的大小是1250平方英尺,那么这套房可以卖多少钱?
此时就可以进行模型拟合。
根据这个模型,那么你可以告诉他这套房或许可以卖到220k。 监督学习:每一个例子都有“正确的答案”,也就是说我们知道了数据集中卖出的房子的实际大小和价格。
回归问题:回归是指,我们预测一个具体的数值输出也就是价格。
(另一种最常见的监督学习问题为成为分类问题我们用它来预测离散值输出,比如观察肿瘤并试图判断它是良性还是恶性的,这是只有0和1的离散输出)
更正式来说,在监督学习之中,我们有一个数据集,它被称为训练集,(以房价为例,我们有一个房价训练集,我们的工作就是从这个数据中学习如何预测房价。)
在课程中会用到的符号:
(x,y) - 表示一个训练样本
(x^{(i)},y^{(i)}) - 表示一个第i个训练样本(上标i表示索引,并不是表示幂指数)
如上图
x^{(1)} = 2104
x^{(2)} = 1416
y^{(1)} = 460
这个监督学习算法是如何工作的?
- 我们向学习算法提供训练集
- 学习算法的任务是输出一个函数,通常用小写的h来表示,h代表假设函数(hypothesis)
- hypothesis的作用就是把房价的大小作为输入变量x,它会试着输出相应房子的预测y值。
h是一个引导从x得到y的函数。
(hypothesis是一个从早期开始使用的名字,现在看来或许不够贴切,但这是人们在机器学习中使用的标准术语,不用太过于纠结)
我们如何表示h?
当我们设计一个学习算法时,下一个需要做的事情就是决定怎么表示这个hypothesis h。在后面的学习中,我们会选择最初的假设函数作为我们接下来的函数。
h\theta(x) = \theta0 + \theta1x
- 有时候 h\theta(x)会缩写成h(x),但更多的时候会加上\theta下标。
这个函数的作用是预测y关于x的线性函数
为什么是一个线性函数?
有时候我们会想,拟合更加复杂的比如非线性函数,但是由于这种线性的情况是学习的基础,从这个例子开始先拟合线性函数,然后我们将在此基础上最终处理更加复杂的模型,以及学习更加复杂的学习算法。
这种模型称为线性回归,这个例子是一元线性回归,这个变量是x,这个单变量函数能够预测所有的价格。这个模型的另一个名字是单变量线性回归,单变量这个词仅仅是称呼单一变量的高大上的方式。