1. 线性回归
2. 岭回归
不是满秩矩阵无法求逆
将原来的矩阵和单位矩阵相加:
相加后的得到:
这样就达到满秩矩阵啦,好啦,我们开始求逆吧。
实例
这个时候怎么选择系数能达到最好的效果那。
alpha是多少为好,得试。在岭回归内,选择alpha是最重要的一个工作。
岭回归alpha系数的选择问题
通过以上可以发现,上面的权重为0,不符合条件。
alpha值越大,得到系数越小。引入值越大相当于加入偏差,一般都是零点零几,
十条线,十个系数。
alpha的选择对的现象是,系数波动很缓,
可以根据哪些变化不大的,砍掉,因为不重要啊。
3. lasso回归
这里创建数据没有添加偏差 fit_intercept=False
4. 逻辑回归
4. 逻辑斯蒂回归
Logistics回归的原理
利用Logistics回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。这里的“回归” 一词源于最佳拟合,表示要找到最佳拟合参数集。
训练分类器时的做法就是寻找最佳拟合参数,使用的是最优化算法。接下来介绍这个二值型输出分类
Logistic Regression和Linear Regression的原理是相似的,可以简单的描述为这样的过程:
(1)找一个合适的预测函数,一般表示为h函数,该函数就是我们需要找的分类函数,它用来预测输入数据的判断结果。这个过程是非常关键的,需要对数据有一定的了解或分析,知道或者猜测预测函数的“大概”形式,比如是线性函数还是非线性函数。
(2)构造一个Cost函数(损失函数),该函数表示预测的输出(h)与训练数据类别(y)之间的偏差,可以是二者之间的差(h-y)或者是其他的形式。综合考虑所有训练数据的“损失”,将Cost求和或者求平均,记为J(θ)函数,表示所有训练数据预测值与实际类别的偏差。
(3)显然,J(θ)函数的值越小表示预测函数越准确(即h函数越准确),所以这一步需要做的是找到J(θ)函数的最小值。找函数的最小值有不同的方法,Logistic Regression实现时有梯度下降法(Gradient Descent)。
1) 构造预测函数
Logistic Regression虽然名字里带“回归”,但是它实际上是一种分类方法,用于两分类问题(即输出只有两种)。首先需要先找到一个预测函数(h),显然,该函数的输出必须是两类值(分别代表两个类别),所以利用了Logistic函数(或称为Sigmoid函数),函数形式为:
该函数形状为:
预测函数可以写为:
2)构造损失函数
Cost函数和J(θ)函数是基于最大似然估计推导得到的。
每个样本属于其真实标记的概率,即似然函数,可以写成:
所有样本都属于其真实标记的概率为
对数似然函数为
最大似然估计就是要求得使l(θ)取最大值时的θ,其实这里可以使用梯度上升法求解,求得的θ就是要求的最佳参数
3) 梯度下降法求J(θ)的最小值
求J(θ)的最小值可以使用梯度下降法,根据梯度下降法可得θ的更新过程:
式中为α学习步长,下面来求偏导:
上式求解过程中用到如下的公式:
因此,θ的更新过程可以写成:
因为式中α本来为一常量,所以1/m一般将省略,所以最终的θ更新过程为:
==========================================
逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型。和很多指数模型(例如最大熵模型)一样,它们的训练方法相似,都可以采用迭代算法GIS和改进的迭代算法IIS来实现。除了在信息处理中的应用,逻辑回归模型还广泛应用于生物统计。