六、逻辑斯蒂回归与最大熵模型
逻辑斯蒂是个啥:
以人口增长为例:


其中,
Ω代表了最大值(此处为最大人口容量),所得图像为:
P(t)代表当前人口容量占最大人口容量的比例:


将未知数与对应的积分放在同一侧得到下列公式:

继续求解:

可得其表达式:

设已经存在的记为1,概率为P(t);不存在的记为0,概率为1-P(t);第三个就是其对应的增长曲线(不能无休止的加上去)
6.1逻辑斯蒂回归模型
6.1.1 逻辑斯蒂分布
sigmoid函数图像:

由图可得其特征:


由三条性质可得F(x)为分布函数,此处为累积分布函数,
不难发现这个函数图像关于(0,1/2)对称:

这个函数可以求导得到其概率密度函数:

其对应图像为:

逻辑斯蒂分布和t分布均属于指数分布族,但是与正态分布略有不同(尾部要稍微厚一些),但是由于正态分布是在给定阈值和方差的情况下,具有最大熵的概率分布了,这使得数据携带的信息量最大。
但是逻辑斯蒂分布常用于 生长分布 ;而t分布常用于 不知道标准差的情况下 。
从密度函数图中不难发现,当x=0时增长速度最快;
正态分布也是关于x=0对称的,其函数的第一个参数代表位置,第二个参数代表形态,现在用字母代表得:
-
一般形式:
各种回归模型:

对他们求期望:

ε的期望为0
问题:若输入的X和输出Y没有线性关系,假设现在有:
则可以用线性模型去解决非线性问题,在这里就可以拿逻辑斯蒂分布当作连接函数g:
解得:
这就是下面的二项逻辑斯蒂回归模型
6.1.2 二项逻辑斯蒂回归模型
- 定义:

对于第一条算式,其代表已经存在的人类数量,另一个代表还没出现的;此时输入X变成了n+1维,而输出y为一个数值;
但是当输入为N个样本点,那么Y就是一个N维向量
-
特点:
1.说到底就是把分类问题用回归模型解决。由于是分类问题,那么输出变量是离散的,而输入变量是连续的;可以通过普通的线性回归构造一个线性形式,进而将这个形式与输出变量构造关系(就是联系函数g),可以考虑类别对应的概率,通过sigmoid函数可以将w·x与y的概率构建出一个模型,进而将非线性关系变为了线性关系;
2.意味着可以用 sigmoid 的连续函数来代替单位的阶跃函数,这样输入变量就很自由,可以离散也可以连续;
3.这里其实就是怎么求出逻辑斯谛回归模型中的 ,这里我们会用到之前提到的极大似然估计法(概率最大化)来估计。
6.1.3 模型参数估计


这里的p有xi决定,记为pi;若我们有N个样本,那么某个训练集出现的概率为:
当关注点在参数w上,那么就可以记为似然函数L(w)
似然函数表达式:

在对上面的似然函数求对数得到对数似然函数:


这三个求解方法就是前面极大似然估计的三个方法,不过迭代法下有牛顿法(泰勒公式的二阶展开,速度快)和梯度下降法(用原理求最大值)两种
6.1.4 多项逻辑斯蒂回归

- 定义: 假设Y的取值集合为{1,2,.....,K},那么其模型就是

注意这里的分母变化;其实就是分母的对数变多了一些?
6.2 最大熵模型

6.2.1 最大熵原理

对于离散变量是求和,对于连续变量就变成了积分;那么最大熵就是找到使H最大的p(x)。
-
离散分布:
已离散中最简单的伯努利分布为例:


当p=0/1时,就变成了必然事件;而当p=0.5时,其熵最大
推广到多元分布

求最大熵的同时要满足所有pi加起来为1的约束条件,就有了下面的正则化一样的表达式;
求最大值就是对下面的式子求偏导数:

由此可能当pi=1/k时,对应的熵最大;所以有了下面的公式:

-
实例:书上P95例6.1
由上面可知,没有其他约束条件时等概率情况下熵最大;
而在增加1个约束情况下,要把两个地方都等概率才会有最大熵;
在增加2个约束情况下,要在满足条件的前提下让其余的概率均匀化才会有最大熵;
对于有三个约束条件的情况下:

解得当p1=0.1859时熵最大。
-
连续分布:
对最后一条公式求解得:
因为这里得对称轴为μ-λ2/2λ3(图里标错了)而实际对称轴(代表均值)为x=μ所以λ2=0;进而得到最简版本(红色字)

第一个积分等式是概率论的公式,在这里拿来解p(x)
在对第三个约束条件求解:

可解得:

进而得到:

其中前面的系数就是C
以上所得就是正态分布
把隔壁某人卷趴下















