3.1 一元线性回归
1、y和y'的差距是预测误差,预测误差最小的直线是线性回归要求的直线。
考虑点到直线的距离,叫做正交回归。
把所有的预测误差加起来叫做均方误差。
所以,线性回归求的就是均方误差最小的直线,从几何角度说,是平行于y轴最短的直线。
2、表示无序的多值离散特征可以多加几个w比如 黑[1,0,0] 白[0,1,0] 黄[0,0,1]
f(x)=w1x1+w2x2+w3x3+b
3、argmin不是指是式子的最小值,而是使式子达到最小值的w和b。
4、极大似然估计的直观想法是:使得观测样本出现概率最大的分布就是待求分布,也即使得联合概率(似然函数)L(θ)取到最大的θ*就是θ的估计值。
5、机器学习三要素:
模型-根据具体问题,确定假设空间
策略-根据评价标准,确定选取最优模型的策略(通常会产出一个损失函数)
算法-求解损失函数,确定最优模型,次优也行
6、用最小二乘法对w和b进行估计,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧式距离之和最小。
3.2 二元线性回归
略
知识点与一元大致相同
且多为公式推导
3.3对数几率回归
1、算法原理:在线性模型的基础上套一个映射函数来实现分类功能。至于为什么选择sigmoid函数,解释有很多种,比较有公信力的角度是最大熵。西瓜书上给的解释是对数几率。
2、对数几率角度
给了映射函数后,可以开始建模了。
第一步要确定概率质量函数
第二步写出似然函数
3、信息论角度
信息熵(自信息的期望):度量随机变量X的不确定性,信息熵越大越不确定
相对熵(KL散度):度量两个分布的差异,其典型场景是用来度量理想分布p(x)和模拟分布q(x)之间的差异
q(x)部分得到交叉熵
通过最小化相对熵这个策略可以求出最优分布
但由于理想分布p(x)是未知且固定的常量,那么最小化相对熵就等价于最小化交叉熵
4、对数几率回归算法的三要素:
模型:线性模型,输出值的范围是[0,1],近似阶跃的单调可微函数
策略:极大似然估计,信息论
算法:梯度下降,牛顿法
3.4线性判别分析
1、算法原理
从几何角度:异类样本的中心尽可能远,同类样本的方差尽可能小
2、损失函数推导(重点回顾)
3、拉格朗日乘子法
4、求解w(重点回顾)
5、广义特征值和广义瑞利商