机器学习相关的基础概念
All models are wrong but some are useful(所有模型都是错误的,但有些是有用的)
机器学习:简言之涉及概率论、统计学、模型算法等,就是说算法解析数据,从中学习,然后对事物做出决定或预测。
数据集:如下图所示我们所看到的数据集合。
特征:如下表中的年龄,奖金等,特征是对样本的描写。
特征向量:事物的特征组成的向量。
标签:因变量Y,即该组数据的结果描述。
属性值:下图示例中的—18,5000等则为属性值。
缺失数据:数据中为空的数据。
样本空间:训练数据中出现的属性值构成的集合空间,也叫属性空间。
假设空间:理论上所有可能的属性值构成的集合空间。
回归:预测连续型变量。
分类:预测分类型变量,且类别已知。
聚类:预测分类型变量,但类别不知。
数据集分为三份
训练集:在机器学习的过程中使用,负责学习模型,训练模型。
验证集:验证模型,调整参数优化模型。
测试集:测试模型,用于判断模型的可用程度。
(备注:也可分为两份,即训练集和测试集,分配比例0.25(0.2) / 0.75(0.2))。
机器学习的简单框架
监督学习:Supervised learning
同时具有特征(feature)和标签(label),即便是当面对没有标签的数据,机器也可通过特征判断出标签。
简单来记—一定是知道目标变量(即因变量Y)
无监督学习:Unsupervised learning
只有特征,没有标签,不知道数据与特征之间的关系,需要通过学习得到数据与特征之间的联系。
简单来记—数据中肯定没有目标变量(即因变量Y)
半监督学习:Semi-Supervised learning
数据一部分有标签,一部分没有标签。
强化学习:Reinforcement learning
也是使用没有标签的数据,通过奖惩函数得知我们与正确答案距离的远近。