ML知识概括:
ML常用公式
推荐学习博客:莫烦Python(有视频和图文,很大神非常推荐)
https://morvanzhou.github.io/
基本术语
-
特征向量(feature vector)/样本(sample):用多个维度来描述一件事物有叫做“样本”也叫做“特征向量”
-
训练(training):从数据中学得模型*得过程
-
训练样本:训练过程中使用的数据称为“训练数据”,其中每个样本称为一个“训练样本”,训练样本组成的集合称为“训练集”。
-
模型/学习器(learner):可看作学习算法在给定数据和参数空间上的实例化也叫做
-
标记(label):关于样本预测结果的信息,例如:“好瓜”、“坏瓜” 称为标记,而,拥有了标记信息的样本称为样例,一般的用(xi,yi)表示第i个样例,xi为第i个特征向量,yi是xi的标记。
-
分类(classification)&回归(regression):对于欲预测的是离散值,此类学习任务称为“分类”;若欲预测的是连续值,例如西瓜的成熟度0.95、0.37,此类学习任务称为“回归”
-
二分类(binary classification)&多分类(multi-class classification):对只涉及两个类别的的学习任务称为“二分类”任务,通常称为一个类为“正类”,另一个类为“反类”;涉及多个类别时,则称“多分类”任务。
-
测试/评估(testing):学得模型后,使用其进行预测的过程称为“测试”
-
聚类(clustering):将训练集的样本分成若干组,每一组称为一簇(cluster),这些自动形成的簇可能对应一些潜在的概念划分,而且这样的学习过程中使用的训练样本通常不用于标记信息。
- 监督学习&无监督学习
-
泛化(generalization) :学得模型适用于新样本的能力,称为泛化能力
假设空间
scikit-learn 中文文档
http://sklearn.apachecn.org/cn/0.19.0/