机器学习笔记(1)
参考书:周志华《机器学习》
第1章 绪论
Part1 基本概念
1.机器学习的研究内容:如何从数据产生模型(学习算法)
2.数据集、样本、属性、属性值
3.属性空间(输入空间):由属性张成的向量空间,由此,每一个样本可以表示为一个向量
4.学习(训练):由数据建模的过程,所使用的数据称为训练数据,相应的样本称为训练样本,数据集称为训练数据集
5.假设与真实:训练所得模型为假设,规律本身为真实,学习要使假设尽可能逼近真实
6.标记和样例:已经发生的已知的结果称为标记,拥有标记的样本称为样例
7.标记空间(输出空间):由标记张成的空间,每一个样例表示为一个向量
8.泛化能力:模型不能只针对样例有效,对于未知的新样本也要有效,这种能力称为泛化
Part2 机器学习的分类
1.按有无样本空间分:
- 有监督学习,包括分类和回归
- 无监督学习,包括聚类
2.按预测值的类型分:
- 分类:预测值离散预定
- 回归:预测值连续
- 聚类:预测值离散不预定,其自动形成的组称为簇
Part3 机器学习的抽象过程
1.科学推理的基本手段:
- 归纳:由特殊到一般,泛化
- 演绎:由一般到特殊,特化
2.机器学习一般是指归纳学习
3.归纳学习分为:
- 广义:模型视为黑箱
- 狭义:能抽象出概念,又称概念学习
4.假设空间:由所有假设构成的空间,学习的过程就是在假设空间中找到最合适的假设(也就是模型)的过程
例如:有以下数据集
样本序号(采样的西瓜) | 属性A(色泽) | 属性B(根蒂) | 属性C(敲声) | 标记Y(是否为好瓜) |
---|---|---|---|---|
1 | 0(青绿) | 0(蜷缩) | 0(响亮) | 1 |
2 | 1(乌黑) | 0(蜷缩) | 0(响亮) | 1 |
3 | 0(青绿) | 1(硬挺) | 1(沉闷) | 0 |
4 | 1(乌黑) | 0(蜷缩) | 1(沉闷) | 0 |
其假设空间为{(0,0,0),(0,0,1),……(1,1,1)}的所有子集的集合,从其中搜索到(0,0,0)+(1,0,0)是符合的,则其假设为{(0,0,0),(1,0,0)},可以构建模型,Y=(非B)(非C),这就抽象出了一个概念:“根蒂蜷缩且敲声响亮的瓜为好瓜”,这个例子是概念学习中最简单的一类——布尔值概念学习*
5.版本空间 :符合条件的假设可能不止一个,所有符合条件的假设构成的空间为版本空间
6.归纳偏好 :事先无法判断版本空间中哪一个假设最好,但又必须输出一个确定的模型,因此一个学习算法必须有归纳偏好,常用如下:
- 尽可能特殊复杂
- 尽可能一般简单,即奥卡姆剃刀法则
7.NFT定理 :学习算法不影响总误差,即"No Free Lunch",所以我们不能一概而论说某个学习算法最好,而要具体问题具体分析
8.小结:什么是学习 ?
(1)数据->模型
(2)特殊->一般
(3)样本空间->版本空间
Part4 机器学习理论的发展历程
1.推理期(二十世纪五十到七十年代初):机器要有逻辑推理能力,Newell和Simon的”逻辑推理家“
2.知识期(二十世纪七十年代中期):机器要有知识,Feigenbaum的”知识工程“
3.学习期(至今)
(1)连接主义:基于神经网络,例如”感知机“,BP算法
(2)符号主义:基于逻辑表示,例如”结构学习系统“,归纳逻辑程序设计(ILP)
(3)决策主义:基于决策理论,例如”学习机器“,决策树
(4)统计主义:基于统计理论,例如SVM,核方法