2.2 感知机 -- 准备知识：梯度下降法

梯度下降法是求解无约束问题的最常用方法

最大变化率是梯度大小，也就是梯度的模，分数上面的是函数，下面表明是对哪个变量求导，在这里的话就是将函数f(θ)对θ求导。η代表步长。θ代表第k次的迭代值。k是迭代次数

代表在Θ（k）处的梯度

梯度下降法：算法

梯度下降法：例子

计算方式：

Θ（4）- Θ（3）小于精度0.01，停止迭代

梯度下降法：原理：

（个人觉得推导过程不做重点）

2.3 感知机 -- 学习算法之原始形式：算法解说

学习问题

找使损失函数最小的w、b，来得到超平面

原始形式：随机梯度下降法

随机梯度下降会比批量梯度下降快

原始形式：算法

蓝色线是初始值所对应的分离超平面
第（3）步。正确分类的值是大于0的值，小于等于0的值被错误分类
黄色线是优化后
w是超平面的旋转程度，b对应位移量
wx+b是根据当前模型算出来的分类，而y是他本来对应的分类。比如一个应该是正类的点是误分类点那么其y就是正，wx+b就是负，两者相反，所以两者相乘是负。
‖wx+b‖就是点到S的距离，然后 -y(wx+b)=‖wx+b‖

用例子x（3,3）来找到模型：

x2（4,3），x3（1,1），验证了模型分类的情况，x3被发现为误分类，用x3来更新参数

采用不同误分类点的顺序得到的解不同。

2.3 感知机 -- 学习算法之对偶形式

w的计算方式：n1=2的意思是x1作为误分类点出现2次。α1=n1η，由于假设步长η=1，所以α1=2。α3=5。由于x1是正类所以y1=1，x1=（3,3）。y3是负例点，所以=-1。x3=（1,1）。所以第一项=（6,6），第二项=（-5，-5），加起来得到（1,1）
b的第一项是2，第二项是-5。

通过最后参数的表达式可以看出，对偶形式的学习算法，基本思想是将参数通过yi和xi的线性组合表达出来，然后求解这个组合的系数（αi）

输入T、步长η，希望输出α、b和感知机模型f(x)
α<0>表示迭代次数为0，随机选取例子判断是否为误分类点，是的话就更新参数

感知机 -- 学习算法之对偶形式 -- 例题

x1·x1=（3,3）·（3,3）=3·3+3·3=18
x1·x2=（3,3）·（4,3）=3·4+3·3=21

α1<0>=0

α3<1>=α3<0>=0，因为第一次迭代的α3和第零次迭代的α3是一样的

第二次发现x3是误分类点，更新α3，α1不变

无论是原始形式还是对偶形式，如果迭代过程一样，最后得到的分离超平面和感知机模型是不变的，同样类似原始形式，对偶形式也是收敛的，并且存在多种解，如果要确定唯一解，需要加约束条件，在第七章提到。

感知机 -- 学习算法之原始形式：算法的收敛性

对于一个算法，如果是收敛的才是有效的
如果训练集是线性可分的，通过原始形式的学习算法，通过有限次迭代，得到分离超平面。

w^ 和x^ 分别是扩充之后的权重向量和扩充之后的样本向量，超平面算式更新为：w^ ·x^ =0
opt代表最优的权重扩充向量

3.1 k近邻法 -- 简介

K表示输出中的K种类别，k表示与x最近的k个点
当yi=cj的时候函数取1，不等于的时候取0，表示希望找到类别cj，使cj所对应样本在邻域里所占样本比例最大，那么x类别就是cj

误差率：

正确分类：a=b，反之则反

k无穷大，表示类有无数多，b=cj的概率求极限等于a=cj的概率，也就是说x所属类别是由xi所属类别决定的

希望找到一个cj，使x所属类别为cj的时候，概率是最大的，符合最优决策事件，大概率事件

P* 为贝叶斯误差率，它对应的误差是最优策略对应的误差

3.2 k近邻法 -- 三要素

距离度量、k-值的选择、分类决策规则

二维，p=2。
若p=1，对应曼哈顿距离。

不同的距离度量确定的最近零点也是不同的

k近邻的分类准则：多数表决法

3.3 k近邻法 -- 构造kd树

k维的树，k表示特征数，数据是k维的

（k）代表第k个特征
构造根节点时，文中写选择第一个特征作为根节点，但是不一定选第一个，那怎么选可以根据计算每个特征的方差。共N个实例点，每个都有k个特征，可以计算每个特征的n个值得到的方差，选择这k个方差中最大的那个方差对应的特征，比如x（m）作为坐标轴。
根结点对应的深度为0
深度为j的结点，对应特征序号为j(mod k)

线对应的根结点深度为0，左边是左节点（小于7），右边是右节点（大于7），左右两边对应的深度是1

左边这个区域的特征对应的值是3、4、7（对应到左边的轴），中位数是4，4对应的实例点是（5,4），所以是切分点，右边实例为偶数时，选择第N/2个切分点或第N/2+1个。
对接下来的点划分

刚才以第2个特征为坐标轴划分，第2个特征+1=3。而3大于实际的维数2，就轮第2遍，以第1个特征为坐标轴进行划分，由于只有一个点所以就以它为中位数

搜索kd树

这个算法包含两部分：
从根到叶、从叶到根

如果在回溯过程中，某个子结点与目标点的距离比当前最近点与目标点的距离小，就更新当前最近点为选择的子结点。选择的当前最近点就是选择的目标点的最近邻点了。

下面用例题解释一下怎么搜索kd树，找出目标点的最近邻点

圈内是目标点，第一步是找x的当前最近点，作为算法初始值。

先找根节点，x比根节点小，在左子区域，所以在左子区域寻找，在根据子区域的划分寻找
回溯：以目标和当前最近点为半径画圆，与父节点（5,4）划分的超平面是没有交集的，说明不可能在右子区域找到它的当前最近点了

另一个例子

先找到最近邻点是（4,7），回溯时与目标点为半径画圆，与父节点有交集，那么（4,7）的另一边节点区（兄弟节点区）里是否有目标点的当前最近点？兄弟节点区里有（2,3），（2,3）对应的左右子区域都和圆有交集，计算（2,3）与目标点的距离比之前当前最近要小，进行更新，再以（2,3）和目标点为半径画圆。

4.1 朴素贝叶斯法：核心 -- 贝叶斯定理

贝叶斯思维：

条件概率，先有已知条件Y=y，求X=x。分子就是Y=y和X=x同时发生的概率，分母是Y=y发生的概率。

贝叶斯定理：逆概率思维

已知K类（K个盒），x有n个特征。贝叶斯定理就是逆概率的思维，分子是把条件和结论进行互换，以ci为条件，X=x的概率是多少，乘以归属于ci的概率有多少，分子其实是P(X=x，Y=ci)这两个事件同时发生的概率。再将分母展开，展开成K个项，每个项是联合概率，就是实例点具体表达是x，并且归属于ci类，这两个事件同时发生的概率

贝叶斯分类的原理：

朴素贝叶斯：实例点特征之间相互独立

4.2 朴素贝叶斯：因何而朴素

是一种分类方法，是贝叶斯定理 + 特征条件独立假设（使贝叶斯思维变为朴素贝叶斯）

统计学习方法2.2-4.1 笔记