西瓜书绪论

                                    第一章          绪论 


       机器学习是致力于研究如何通过计算的手段,利用经验来改善系统自身的性能的学科。机器学习所研究的主要内容,是关于在计算机上从数据中产生的“模型”的算法,我们把经验数据丢给它,它就能基于这些数据产生模型,在面对新的情况时,模型会为我们提供相应的判断。

基本术语:

1、数据集:是记录的合集。其中每条记录是关于一个事件或者对象的描述。称为示例或者样本。反映事件或对象在某方面的表现或性质的事项。例如西瓜的‘色泽’、‘根蒂’等称为属性或者特征。如果我们把‘色泽’、‘根蒂’、‘敲声’作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置,空间中每一个点对应一个坐标向量,因此也把一个示例称为‘特征向量’。

2、训练样本:训练过程中使用的数据称为“训练数据”,其中每个样本称为一个‘训练样本’。

3、假设:学得的模型对应了关于数据的某种潜在规律

4、监督学习:训练数据拥有标记信息

5、无监督学习:训练数据不拥有标记信息

6、泛化:学得的模型适用于新样本的能力

7、归纳:从特殊到一般的泛化过程,即从具体的事实归结出一般性规律

8、演绎:从一般到特殊的“特化”过程,即从基础原理推演出具体状况

9、假设空间:我们可以把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集‘匹配’的假设,即能够将训练集中的瓜判断正确地假设。假设的表示一旦确定,假设空间及其规模大小就确定了,这里我们的假设空间有形如“(色泽=?)^(根蒂=?)^(敲声=?)”的可能取值所形成的假设组成。

10、归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”

11、奥卡姆剃刀原则:若有多个假设与观察一致,则选择最简单的那一个。

12、没有免费的午餐(NFL):无论学习算法A多聪明,学习算法B多笨拙,它们的期望性能相同。没有免费的午餐定理最重要的意义在于,让我们清楚的认识到,脱离具体问题,空谈“什么学习算法更好”毫无意义。因为若考虑到所有潜在的问题,则所有学习算法都一样好。要谈论算法的相对优劣,必须要针对具体的学习问题,,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容