数据
机器学习就是为给算法数据,让算法在数据寻找一种关系
- 数据的整体叫做数据集(data set)
- 每一行数据称为样本(sample)
- 除最后一列,每一列表达样本的一个特征(feature)
特征我们通常用X表示
第i个样本行写作 X(i)
地i个样本第j个特征值X(i)j - 最后一列,称为标记(label)
通常用y(小写)表示
第i个样本的标记y(i)
萼片长度 | 萼片宽度 | 花瓣长度 | 花瓣宽度 |
---|---|---|---|
5.1 | 3.5 | 1.4 | 0.2 |
7.0 | 3.2 | 4.7 | 1.4 |
6.3 | 3.3 | 6 | 2.5 |
第一行,为特征下面的为特征向量
下方是一个特征空间。
仔细观察发现数据可以分为两类,如图
我们可以看到数据中可以有一条明确的直线将数据分为两类(下方暂称为第一类,上方为第二类),这就是我们区分某一类事物的方法,当某类事物的特征趋向于直线的下方,我们把他当作第一类,上方则为第二类。
分类任务的本质就是特征空间切分
在高维空间同理
特征可以很抽象
- 图像,每一个像素点都是特征
- 28*28的图像有28*28=784个特征
- 如果是彩色图像特征更多
- 特征可以非常抽象,甚至没有语义
【引申】深度学习就是用算法自动的进行特征工程
机器学习的主要任务
一、分类任务
将给定的数据进行分类
- 二分类任务
- 给予的图片是猫还是狗
- 判断邮件是垃圾邮件;不是垃圾邮件
- 银行判断发个客户信用卡有风险;没有风险
- 肿瘤是恶性还是良性
- 多分类任务
- 手写字体的识别
- 图像识别(不在是两类事物。多事物识别)
- 判断发放给客户的信用卡的风险评级
- 很多复杂的问题也可以转化成分类问题
一些算法只支持完成二分类任务
但多分类的任务可以转换成二分类任务
有一些算法天然的可以完成多分类任务
- 多标签任务
假设有一张图片有两个人,多标签分类任务可以区分两个人,把第一个人作为A第二个作为B。甚至把图片中的其他事物进行区分
二、回归任务
- 结果是一个连续的值,而非一个类别
- 房屋价格
- 市场分析
- 学生成绩
- 股票价格
有一些算法只能解决回归问题,
有一些算法只能解决分类问题,
有一些算法的思路既能解决回归问题,又能解决分类问题。
有一些情况下,回归任务可以简化成分类任务
综上,大量学习资料被叫做数据集data set,算法根据资料建立模型,输入样例从而输出结果。
我们可以把模型看作f(x),x是样例,输出结果
回归问题和分类问题都是监督学习