说明:小白学习记录,写文档是为了督促自己学习,零基础开始接触机器学习,刚开始读这本书,只是简单梳理知识啦。向大佬致敬,小白打扰了。
1.1 引言
1.机器学习:研究如何通过计算的手段,利用经验(通常以“数据”的形式存在)来改善系统自身的性能。
2.研究的主要内容:是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。(如果说计算机科学是研究关于“算法”的学问,可以说机器学习是研究关于“学习算法”的学问。)
1.2 基本术语
1.数据
(1) 数据集:一组记录的集合
(2)样本:也称为示例,每条记录是关于一个事件或对象的描述
(3)属性:反映事件或对象在某方面的表现或性质的事项
(4)属性空间:也称为样本空间和输入空间,属性张成的空间
(5)特征向量:由于空间中的每一个点对应一个坐标向量,因此也把一个示例称为特征向量
2.模型:本书中泛指从数据中学到的结果(该过程称为“学习”或者“训练”)。 注意:有文献用“模型”指全局性结果,例如一颗决策树,而用“模式”指局部性结果,例如一条规则。
(1)监督学习:分类(二分类和多分类)、回归
(2)无监督学习:聚类
注意:机器学习的目标是使学得的模型能很好的适用于“新样本”,而不仅仅在训练样本上工作的很好。学得模型适用于新样本的能力称为“泛化”能力。
3.预测:测试、测试样本、泛化能力
1.3 假设空间
1.科学的推理手段:归纳、演绎
(1)归纳:从特殊到一般的“泛化”,即从具体的事实归纳总结出一般性规律。
(2)演绎:从一般到特殊的“特化”,即从基础原理推演出具体状况。
1.4 归纳偏好
1.归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好。任何一个有效的机器学习算法必有其归纳偏好,否则将无法产生确定的学习结果。(对于一个具体的学习算法而言,它必须要产生一个模型)
2.奥卡姆剃刀:一种常见的、自然科学研究中最基本的原则。即“若有多个假设与观察一致,则选最简单的那个”。
1.5 发展历程
略
1.6 应用现状
略
1.7 阅读材料
1.贝叶斯、迁移学习、类比学习、深度学习
2.奥卡姆剃刀、多释原则