李航. 统计学习方法[M]. 清华大学出版社, 2012.
第6章 逻辑斯谛回归与最大熵模型
6.1 逻辑斯蒂回归模型
逻辑斯谛分布(logistic distribution)
设是连续变量,
服从逻辑斯谛分布是指
具有如下分布函数和密度函数:
式中为位置参数,
为形状参数,其值越小曲线在中心附近增长得越快。
[图片上传失败...(image-d50466-1621943256540)]
二项逻辑斯谛回归模型(binomial logistic regression model)
二项逻辑斯谛回归模型是如下的条件概率分布:
这里是输入,
是输出,
和
是参数,
称为权值向量,
称为偏置。
一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。对于逻辑斯谛回归而言,其对数几率(log odds)或logit函数是
参数估计(极大似然估计)
对于给定的训练数据集,设
,
似然函数为
对数似然函数为
对求极大值,得到
的估计值
。如此,问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯谛回归学习中通常采用的方法是梯度下降法和拟牛顿法。
多项逻辑斯谛回归(multi-nominal logistic regression model)
用于多分类模型。假设离散型随机变量的取值集合是
,那么多项逻辑斯谛回归模型是
这里,,
。