统计学习方法2.2-4.1 笔记

2.2 感知机 -- 准备知识:梯度下降法

梯度下降法是求解无约束问题的最常用方法

最大变化率是梯度大小,也就是梯度的模,分数上面的是函数,下面表明是对哪个变量求导,在这里的话就是将函数f(θ)对θ求导。η代表步长。θ代表第k次的迭代值。k是迭代次数

代表在Θ(k)处的梯度

梯度下降法:算法

梯度下降法:例子

计算方式:

Θ(4)- Θ(3)小于精度0.01,停止迭代

梯度下降法:原理:

(个人觉得推导过程不做重点)

2.3 感知机 -- 学习算法之原始形式:算法解说

学习问题

找使损失函数最小的w、b,来得到超平面

原始形式:随机梯度下降法

随机梯度下降会比批量梯度下降快

原始形式:算法

蓝色线是初始值所对应的分离超平面
第(3)步。正确分类的值是大于0的值,小于等于0的值被错误分类
黄色线是优化后
w是超平面的旋转程度,b对应位移量
wx+b是根据当前模型算出来的分类,而y是他本来对应的分类。比如一个应该是正类的点是误分类点那么其y就是正,wx+b就是负,两者相反,所以两者相乘是负。
‖wx+b‖就是点到S的距离,然后 -y(wx+b)=‖wx+b‖

用例子x(3,3)来找到模型:

x2(4,3),x3(1,1),验证了模型分类的情况,x3被发现为误分类,用x3来更新参数

采用不同误分类点的顺序得到的解不同。

2.3 感知机 -- 学习算法之对偶形式

w的计算方式:n1=2的意思是x1作为误分类点出现2次。α1=n1η,由于假设步长η=1,所以α1=2。α3=5。由于x1是正类所以y1=1,x1=(3,3)。y3是负例点,所以=-1。x3=(1,1)。所以第一项=(6,6),第二项=(-5,-5),加起来得到(1,1)
b的第一项是2,第二项是-5。

通过最后参数的表达式可以看出,对偶形式的学习算法,基本思想是将参数通过yi和xi的线性组合表达出来,然后求解这个组合的系数(αi)

输入T、步长η,希望输出α、b和感知机模型f(x)
α<0>表示迭代次数为0,随机选取例子判断是否为误分类点,是的话就更新参数

感知机 -- 学习算法之对偶形式 -- 例题

x1·x1=(3,3)·(3,3)=3·3+3·3=18
x1·x2=(3,3)·(4,3)=3·4+3·3=21

α1<0>=0

α3<1>=α3<0>=0,因为第一次迭代的α3和第零次迭代的α3是一样的

第二次发现x3是误分类点,更新α3,α1不变

无论是原始形式还是对偶形式,如果迭代过程一样,最后得到的分离超平面和感知机模型是不变的,同样类似原始形式,对偶形式也是收敛的,并且存在多种解,如果要确定唯一解,需要加约束条件,在第七章提到。

感知机 -- 学习算法之原始形式:算法的收敛性

对于一个算法,如果是收敛的才是有效的
如果训练集是线性可分的,通过原始形式的学习算法,通过有限次迭代,得到分离超平面。

w^ 和x^ 分别是扩充之后的权重向量和扩充之后的样本向量,超平面算式更新为:w^ ·x^ =0
opt代表最优的权重扩充向量

3.1 k近邻法 -- 简介

K表示输出中的K种类别,k表示与x最近的k个点
当yi=cj的时候函数取1,不等于的时候取0,表示希望找到类别cj,使cj所对应样本在邻域里所占样本比例最大,那么x类别就是cj

误差率:

正确分类:a=b,反之则反

k无穷大,表示类有无数多,b=cj的概率求极限等于a=cj的概率,也就是说x所属类别是由xi所属类别决定的

希望找到一个cj,使x所属类别为cj的时候,概率是最大的,符合最优决策事件,大概率事件

P* 为贝叶斯误差率,它对应的误差是最优策略对应的误差

3.2 k近邻法 -- 三要素

距离度量、k-值的选择、分类决策规则

二维,p=2。
若p=1,对应曼哈顿距离。

不同的距离度量确定的最近零点也是不同的

k近邻的分类准则:多数表决法

3.3 k近邻法 -- 构造kd树

k维的树,k表示特征数,数据是k维的

(k)代表第k个特征
构造根节点时,文中写选择第一个特征作为根节点,但是不一定选第一个,那怎么选可以根据计算每个特征的方差。共N个实例点,每个都有k个特征,可以计算每个特征的n个值得到的方差,选择这k个方差中最大的那个方差对应的特征,比如x(m)作为坐标轴。
根结点对应的深度为0
深度为j的结点,对应特征序号为j(mod k)

线对应的根结点深度为0,左边是左节点(小于7),右边是右节点(大于7),左右两边对应的深度是1

左边这个区域的特征对应的值是3、4、7(对应到左边的轴),中位数是4,4对应的实例点是(5,4),所以是切分点,右边实例为偶数时,选择第N/2个切分点或第N/2+1个。
对接下来的点划分

刚才以第2个特征为坐标轴划分,第2个特征+1=3。而3大于实际的维数2,就轮第2遍,以第1个特征为坐标轴进行划分,由于只有一个点所以就以它为中位数

搜索kd树

这个算法包含两部分:
从根到叶、从叶到根

如果在回溯过程中,某个子结点与目标点的距离比当前最近点与目标点的距离小,就更新当前最近点为选择的子结点。选择的当前最近点就是选择的目标点的最近邻点了。

下面用例题解释一下怎么搜索kd树,找出目标点的最近邻点

圈内是目标点,第一步是找x的当前最近点,作为算法初始值。

先找根节点,x比根节点小,在左子区域,所以在左子区域寻找,在根据子区域的划分寻找
回溯:以目标和当前最近点为半径画圆,与父节点(5,4)划分的超平面是没有交集的,说明不可能在右子区域找到它的当前最近点了

另一个例子

先找到最近邻点是(4,7),回溯时与目标点为半径画圆,与父节点有交集,那么(4,7)的另一边节点区(兄弟节点区)里是否有目标点的当前最近点?兄弟节点区里有(2,3),(2,3)对应的左右子区域都和圆有交集,计算(2,3)与目标点的距离比之前当前最近要小,进行更新,再以(2,3)和目标点为半径画圆。

4.1 朴素贝叶斯法:核心 -- 贝叶斯定理

贝叶斯思维:

条件概率,先有已知条件Y=y,求X=x。分子就是Y=y和X=x同时发生的概率,分母是Y=y发生的概率。

贝叶斯定理:逆概率思维

已知K类(K个盒),x有n个特征。贝叶斯定理就是逆概率的思维,分子是把条件和结论进行互换,以ci为条件,X=x的概率是多少,乘以归属于ci的概率有多少,分子其实是P(X=x,Y=ci)这两个事件同时发生的概率。再将分母展开,展开成K个项,每个项是联合概率,就是实例点具体表达是x,并且归属于ci类,这两个事件同时发生的概率

贝叶斯分类的原理:

朴素贝叶斯:实例点特征之间相互独立

4.2 朴素贝叶斯:因何而朴素

是一种分类方法,是贝叶斯定理 + 特征条件独立假设(使贝叶斯思维变为朴素贝叶斯)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容