在计算机系统中,“经验”通常以“数据”形式存在。
模型model
学习算法learning algorithm
数据集data set
示例instance
样本sample
属性attribute
特征feature
属性值attribute value
属性空间attribute space
样本空间sample space
维数dimensionality
训练集training set
假设hypothesis
“真相”ground-truth
学习器learner
标记label
标记空间/输出空间 label space
是否拥有标记信息分为
监督学习supervised learning[
分类(classification)两个类别二分类(binary classification)通常称一个正类(positive class)另一个反类(negative class)多个类别多分类(multi-class classification)
回归(regression)]
无监督学习unsupervised learning[
聚类(clustering)每个类称为簇(cluster)]
美国《新闻周刊》对谷歌评论:它使任何人离任何问题的答案间的距离变得只有点击一下鼠标这么远。
过拟合overfitting
欠拟合underfitting
模型选择model selection
测试误差testing error
泛化误差generalization error评估方法:留出法,交叉验证法,
留出法(hold-out):直接将数据集划分为两个互斥的集合,测试集,训练集。
交叉验证法(cross validation)