- 在广告计算和推荐系统中使用频率极高
- 带正则化的线性模型比较不容易对稀疏特征过拟合
逻辑斯蒂分布:
μ
为位置参数,γ
>0为形状参数。
LR模型最终形式表现为一种概率模型,这是和几何分类模型最大的区别,如SVM
,KNN
等。
二项逻辑斯蒂回归模型:(其实是个二分类)
令
极大似然估计法:,为决定,数据集
- 如果用交叉熵,LR是凸函数。softmax回归也是凸函数。
这样一来,问题就变成了以对数似然函数为目标函数的,以求可能性最大时的值为目的的最优化问题。
- 我个人的理解是对于
- 选择为回归线与交汇点,则被可能被分类为1的概率为,然后再计算的极大似然估计得到最可能的对应的
求解逻辑回归的方法:
梯度下降:
最大化等价于最小化损失函数,因为除了N,所以求导可以直接得到梯度
- 梯度下降法实现相对简单,但是其收敛速度往往不尽人意,可以考虑使用随机梯度下降法来解决收敛速度的问题
- 你可能很奇怪b怎么不见了,因为
延申拓展:
=======
- 对应的是这个矩阵向量的对应的值
牛顿法:(需要二阶可导)
在现有极小点估计值的附近对 f(x) 做二阶泰勒展开,进而找到极小点的下一个估计值。
- 牛顿法,拟牛顿法用的更多
正则化:(带正则化的线性模型比较不容易对稀疏特征过拟合)
先验知识:L1正则先验分布是Laplace分布,L2正则先验分布是Gaussian分布
- 先验知识怎么来的看另一篇文章
有两种方法:
(1)适用于梯度下降的,带约束条件的优化求解(拉格朗日乘子法)
- 是范数
(2)使用于牛顿法的,贝叶斯学派的:最大后验概率
< 1 > 正则化
LASSO 回归,相当于为模型添加了这样一个先验知识:w 服从零均值拉普拉斯分布
< 2 > 正则化
对参数 w 引入零均值高斯先验
逻辑斯蒂回归跟线性回归比有什么区别?
虽然逻辑回归能够用于分类,不过其本质还是线性回归。它仅在线性回归的基础上,在特征到结果的映射中加入了一层sigmoid函数(非线性)映射,把压缩到,即先把特征线性求和,然后使用sigmoid函数来预测。然而,正是这个简单的逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星。因为他削弱了因为度量形式(米or厘米)
- 使用Softmax(神经网络)还是K个逻辑回归做k个分类问题?
如果你在开发一个音乐分类的应用,需要对k种类型的音乐进行识别,那么是选择使用 Softmax 分类器呢,还是使用 logistic 回归算法建立 k 个独立的二元分类器呢?
答案: 如果你的类别是互斥的,那么用Softmax,否则用K个逻辑回归。如果在你的数据集中,有的歌曲不属于以上四类的其中任何一类,那么你可以添加一个“其他类”,并将类别数 k 设为5。
如果你的四个类别如下:人声音乐、舞曲、影视原声、流行歌曲,那么这些类别之间并不是互斥的。例如:一首歌曲可以来源于影视原声,同时也包含人声 。这种情况下,使用4个二分类的 logistic 回归分类器更为合适。这样,对于每个新的音乐作品,我们的算法可以分别判断它是否属于各个类别。
现在我们来看一个计算视觉领域的例子,你的任务是将图像分到三个不同类别中。
- 假设这三个类别分别是:室内场景、户外城区场景、户外荒野场景。你会使用Softmax回归还是 3个logistic 回归分类器呢?
- 现在假设这三个类别分别是室内场景、黑白图片、包含人物的图片,你又会选择 Softmax回归还是多个 logistic 回归分类器呢?
在第一个例子中,三个类别是互斥的,因此更适于选择Softmax回归分类器 。而在第二个例子中,建立三个独立的 logistic回归分类器更加合适。
并行化逻辑回归
注意到的维度为d,需要对数据的每一维都使用上式更新。可以看到,一次更新的开销数据量N以及维度d有关。
数据并行:
这是最简单也是最容易想到的数据并行方式了,假设有a台机器,则把数据随机分到a台机器上,每台机器数据不重复,这样每台机器有N/a条样本,每个样本有d个特征。每台机器分别对其样本计算,最后求和合并即可。
这个方式解决了数据量大的问题,但是实际中特征数量可能很高。
特征并行:
特征并行就是对每个样本的d个特征进行划分,假设有b台机器,那么,每台机器的有个特征,N个样本点,每台机器对其拥有的特征分别计算,然后和其它机器同步更新后的参数即可。
数据+特征并行
数据+特征并行就是上面两种的结合,如下图所示,将数据分为a * b块,其中,即将数据按水平划分,又在特征上垂直划分。
先分别计算,。然后按照行号(即单个样本点)相同的进行归并。然后再按照列(各个样本之间)计算求均值归并。
Google DistBelief
Google实现了一个名为DistBelief的框架,采用parameter server来同步参数。
文章链接