瓜书重点记录

在计算机系统中，“经验”通常以“数据”形式存在。

模型model

学习算法learning algorithm

数据集data set

示例instance

样本sample

属性attribute

特征feature

属性值attribute value

属性空间attribute space

样本空间sample space

维数dimensionality

训练集training set

假设hypothesis

“真相”ground-truth

学习器learner

标记label

标记空间/输出空间 label space

是否拥有标记信息分为

监督学习supervised learning［

分类(classification)两个类别二分类(binary classification)通常称一个正类(positive class)另一个反类(negative class)多个类别多分类(multi-class classification)

回归(regression)］

无监督学习unsupervised learning[

聚类(clustering)每个类称为簇(cluster)]

美国《新闻周刊》对谷歌评论:它使任何人离任何问题的答案间的距离变得只有点击一下鼠标这么远。

过拟合overfitting

欠拟合underfitting

模型选择model selection

测试误差testing error

泛化误差generalization error评估方法:留出法，交叉验证法，

留出法(hold-out):直接将数据集划分为两个互斥的集合，测试集，训练集。

交叉验证法(cross validation)

最后编辑于：2018.07.20 15:01:29