《统计学习方法》 python实现 chapter6 逻辑斯蒂回归与最大熵模型

逻辑斯蒂回归模型

逻辑斯蒂分布：
设 $X$ 是连续随机变量， $X$ 服从逻辑斯蒂分布是指 $X$ 具有下列分布函数和分布密度：
$F(x) = P(X \le x)= {1 \over e^{-(x - \mu)\over \gamma}}$

密度函数

$f(x) = F'(x) = { {e^{-(x - \mu) \over \gamma}} \over {\gamma(1+e^{-(x-\mu)\over\gamma})^2}}$

分布函数

公式中， $\mu$ 为位置参数， $\gamma \gt 0$ 为形状参数
分布函数属于逻辑斯蒂函数，其图形是一条s形曲线（sigmoid curve).形状参数 $\gamma$ 的值越小，曲线在中心附近增长得越快。
逻辑斯蒂回归模型：二项式逻辑斯蒂回归模型是如下得条件概率分布：
$P(Y = 1|x)={{exp(w·x+b)}\over{1+exp(w·x+b)}}$
$P(Y = 0|x)={1\over{1+exp(w·x+b)}}$
将x输入两个条件概率分布，选取结果较大得值作为结果

最大熵模型

最大熵原理认为，学习概率模型时，在所有可能得概率模型（分布）中，熵最大得模型是最好得模型。
假设离散随机变量 $X$ 的概率分布是 $P(X)$ ,则其熵是 $H(P) = - \sum_x P(x)logP(x)$
熵满足下列不等式： $0\le H(P) \le log|X|$
式中， $|X|$ 是 $X$ 的取值个数，当且仅当 $X$ 的分布是均匀分布时右边的等号成立。这就是说，当 $X$ 服从均匀分布时，熵最大。
定义：最大熵模型
假设满足所有约束条件的模型集合为
$C \equiv \{ P \in \rho |E_p(fi) = E_{\hat p}(fi), i = 1, 2, ···，n \}$
定义在条件概率分布 $P(Y|X)$ 上的条件熵为
$H(P) = - \sum_{x,y}{\hat P}(x)P(y|x)logP(y|x)$
则模型集合 $C$ 中条件熵 $H(P)$ 最大的模型称为最大熵模型