机器学习的基础知识
相关概念
人类学习知识机制:从大量现象中提取反复出现的规律与模式。
- 机器学习是计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的学科。
- 机器学习是从数据中来,到数据中去。
特征空间:数据的不同属性之间可以视为相互独立,每个属性都代表了一个不同的维度,这些维度共同张成了特征空间。
特征向量:每一组属性值的集合都是这个空间中的一个点,因而每个实例都可以视为特征空间中的一个向量
根据输入输出类型的不同,预测问题可以分为以下三类:
- 分类问题:输出变量为有限个离散变量,当个数为 2 时即为最简单的二分类问题;
- 回归问题:输入变量和输出变量均为连续变量;
- 标注问题:输入变量和输出变量均为变量序列。
误差:学习器的实际预测输出与样本真实输出之间的差异。
- 训练误差:学习器在训练数据集上的误差,也称经验误差
输入属性与输出分类之间的相关性,能够判定给定的问题是不是一个容易学习的问题。 - 测试误差:学习器在新样本上的误差,也称泛化误差
反映了学习器对未知的测试数据集的预测能力,是机器学习中的重要概念。
测试误差与模型复杂度之间呈现的是抛物线的关系。
当模型复杂度较低时,测试误差较高;
随着模型复杂度的增加,测试误差将逐渐下降并达到最小值;
之后当模型复杂度继续上升时,测试误差会随之增加,对应着过拟合的发生。
过拟合出现的原因:学习时模型包含的参数过多,从而导致训练误差较低但测试误差较高。
交叉验证:数据分成训练集与测试集,并在此基础上反复进行训练、测试和模型选择,达到最优效果。
机器学习分类:
- 监督学习:基于已知类别的训练数据进行学习;
- 生成方法:根据输入数据和输出数据之间的联合概率分布确定条件概率分布 P(Y|X),这种方法表示了输入 X 与输出 Y 之间的生成关系
- 判别方法:直接学习条件概率分布 P(Y|X)P(Y|X) 或决策函数 f(X)f(X),这种方法表示了根据输入 X 得出输出 Y 的预测方法。
生成方法具有更快的收敛速度和更广的应用范围,判别方法则具有更高的准确率和更简单的使用方式。 - 无监督学习:基于未知类别的训练数据进行学习;
- 半监督学习:同时使用已知类别和未知类别的训练数据进行学习。