逻辑斯谛回归(对数几率回归)是统计学习中的经典分类方法,已经成为流行病学和医学中常见的分析方法。它主要有下面三个用途:
(1)寻找危险因素,例如寻找某一疾病的危险因素。
(2)预测。如果已经建立logistic回归模型,可以根据模型,预测在不同自变量情况下,发生某病或某种情况的概率。
(3)判别。判断某人属于某病或属于某种情况的概率有多大。
1 逻辑斯谛分布与回归
1.1 逻辑斯谛分布
定义:设X为连续随机变量,若X服从逻辑斯谛分布,有:
F(x)与f(x)的图形如下,其分布函数F(x)是一条S型曲线,以(μ,1/2)中心对称,满足F(-x+μ)-1/2=-F(x+μ)+1/2
1.2 逻辑斯谛回归
逻辑斯谛回归既可以看成回归也可以看成分类。
1.2.1 回归
逻辑斯谛回归将样本特征与样本发生概率联系起来,概率是数,可以称为回归。
下图中左式利用一个函数计算p值,右式根据计算的p判断事件发生情况。
1.2.2分类
也可以看成分类算法----做分类时主要解决二分类问题。
注:θ^T为参数,Xb为特征,w(i)为第i个特征的权重,b为截距。
由于y的取值为(-∞,+∞),导致分类效果差(无限制)。下面引入sigmoid函数,使得y取值在(0,1)。
1.2.3 sigmoid函数
函数形式:
图形:
引入sigmoid函数后,即保证p在(0,1):
那么应该怎么才能找到θ使得能最大程度获得样本数据集x及其对应分类输出y呢?
2 梯度下降求最佳θ
2.1 损失函数
损失函数:
损失函数图形:
总损失:
2.2 梯度下降法求最佳θ
前一项求导:
后一项求导:
一个:
m个:
梯度下降后即可求得最佳θ:
2 二项逻辑斯谛回归模型
二项逻辑斯谛回归模型是一种分类模型,由条件概率分布P(Y|X)表示,X取实数,随机变量 Y 取值为 1或0;
定义:
对于给定的输入示例x,按照上述两式,可以求得两个的概率,然后比较两个概率大小,把x分到概率大的那边。
如果对权值向量和输入向量加以扩充,这时的回归模型如下:
如果事件发生概率为p,该事件的几率为p/(1-p),则该事件的对数几率或logit函数是:
带入上上面式子:
说明输出Y=1的对数几率是输入X的线性函数。
可以通过定义把线性函数w.x转换为概率,此时线性函数值越接近+∞,概率值越接近1,越接近-∞,概率值越接近0。
本文由博客一文多发平台 OpenWrite 发布!