机器学习是什么?简单地讲,机器学习是给定输入x,通过模型的训练获取所需的输出y,也即训练出函数y(x)
训练集:⼀个由N个特征{x1, …, xN }组成的集合,⽤来调节模型的参数(打个比方说,可以当做上学时平时的作业,从中可以学习到知识)
测试集:用来检验模型效果的特征集(平时的期末考,由于不讲解试卷,所以只知道成绩不知道错误在哪里,无法从中获取知识)
泛化:正确分类与训练集不同的新样本的能力(将某个知识点从一个题目迁移到另一个题目的能力)
过拟合:模型在训练集上效果很好,在测试集中却表现不佳,其主要原因就是过拟合,泛化性能降低。过拟合是机器学习很经常遇见的情况,可以用L1、L2正则化、drought等方法解决。(考试过拟合现象:看过的都没考,不按历年题目的套路出卷,不是因为看了假书上了假课做了假题,只是对往年试题过拟合)
欠拟合:对训练样本的一般性质还没学好
预处理:将原始输⼊向量变换到新的变量空间,使得在新的变量空间中模式识别问题可以更容易地被解决。我的理解是可能由于特征维度过高,包含过多无用信息,所以进行降维或特征抽取。这样也可以加快计算速度,提高模型准确性。
监督学习:训练数据的样本包含输⼊向量以及对应的⽬标向量(或者叫标签)。比如数字识别问题中,既具有输入的图片信息,也具有图片所对应的标签(0-9)。像数字识别这样,将每个输⼊向量分配到有限数量离散标签中的⼀个,被称为分类问题;如果要求的输出由⼀个或者多个连续变量组成,那么这个任务被称为回归。回归问题的⼀个例⼦是房价预测。在这个问题中,输⼊可以是年份、年平均收入等。
无监督学习:训练数据由⼀组输⼊向量x组成,没有任何对应的⽬标值。目的可能是发现数据中相似样本的分组,这被称为聚类;或者决定输⼊空间中数据的分布,这被称为密度估计,或者把数据从⾼维空间投影到⼆维或者三维空间,为了数据可视化。