统计学习方法6.1-6.2笔记—22.7.28

六、逻辑斯蒂回归与最大熵模型

逻辑斯蒂是个啥:
以人口增长为例:

其中,

Ω代表了最大值(此处为最大人口容量),所得图像为:

P(t)代表当前人口容量占最大人口容量的比例:



将未知数与对应的积分放在同一侧得到下列公式:



继续求解:



可得其表达式:

设已经存在的记为1,概率为P(t);不存在的记为0,概率为1-P(t);第三个就是其对应的增长曲线(不能无休止的加上去)

6.1逻辑斯蒂回归模型

6.1.1 逻辑斯蒂分布

sigmoid函数图像:



由图可得其特征:



由三条性质可得F(x)为分布函数,此处为累积分布函数,

不难发现这个函数图像关于(0,1/2)对称:



这个函数可以求导得到其概率密度函数:



其对应图像为:

逻辑斯蒂分布和t分布均属于指数分布族,但是与正态分布略有不同(尾部要稍微厚一些),但是由于正态分布是在给定阈值和方差的情况下,具有最大熵的概率分布了,这使得数据携带的信息量最大。
但是逻辑斯蒂分布常用于 生长分布 ;而t分布常用于 不知道标准差的情况下

从密度函数图中不难发现,当x=0时增长速度最快;


正态分布也是关于x=0对称的,其函数的第一个参数代表位置,第二个参数代表形态,现在用字母代表得:


  • 一般形式:


各种回归模型:


对他们求期望:

ε的期望为0
问题:若输入的X和输出Y没有线性关系,假设现在有:


则可以用线性模型去解决非线性问题,在这里就可以拿逻辑斯蒂分布当作连接函数g:

解得:

这就是下面的二项逻辑斯蒂回归模型


6.1.2 二项逻辑斯蒂回归模型

  • 定义:

对于第一条算式,其代表已经存在的人类数量,另一个代表还没出现的;此时输入X变成了n+1维,而输出y为一个数值;



但是当输入为N个样本点,那么Y就是一个N维向量

  • 特点:

1.说到底就是把分类问题用回归模型解决。由于是分类问题,那么输出变量是离散的,而输入变量是连续的;可以通过普通的线性回归构造一个线性形式,进而将这个形式与输出变量构造关系(就是联系函数g),可以考虑类别对应的概率,通过sigmoid函数可以将w·x与y的概率构建出一个模型,进而将非线性关系变为了线性关系;
2.意味着可以用 sigmoid 的连续函数来代替单位的阶跃函数,这样输入变量就很自由,可以离散也可以连续;
3.这里其实就是怎么求出逻辑斯谛回归模型中的 ,这里我们会用到之前提到的极大似然估计法(概率最大化)来估计。


6.1.3 模型参数估计


这里的p有xi决定,记为pi;若我们有N个样本,那么某个训练集出现的概率为:



当关注点在参数w上,那么就可以记为似然函数L(w)

似然函数表达式:



在对上面的似然函数求对数得到对数似然函数:



这三个求解方法就是前面极大似然估计的三个方法,不过迭代法下有牛顿法(泰勒公式的二阶展开,速度快)和梯度下降法(用原理求最大值)两种


6.1.4 多项逻辑斯蒂回归

  • 定义: 假设Y的取值集合为{1,2,.....,K},那么其模型就是

注意这里的分母变化;其实就是分母的对数变多了一些?


6.2 最大熵模型

6.2.1 最大熵原理

对于离散变量是求和,对于连续变量就变成了积分;那么最大熵就是找到使H最大的p(x)。

  • 离散分布:
    已离散中最简单的伯努利分布为例:

当p=0/1时,就变成了必然事件;而当p=0.5时,其熵最大

推广到多元分布

求最大熵的同时要满足所有pi加起来为1的约束条件,就有了下面的正则化一样的表达式;

求最大值就是对下面的式子求偏导数:



由此可能当pi=1/k时,对应的熵最大;所以有了下面的公式:


  • 实例:书上P95例6.1

由上面可知,没有其他约束条件时等概率情况下熵最大;
而在增加1个约束情况下,要把两个地方都等概率才会有最大熵;
在增加2个约束情况下,要在满足条件的前提下让其余的概率均匀化才会有最大熵;

对于有三个约束条件的情况下:



解得当p1=0.1859时熵最大。

  • 连续分布:

    对最后一条公式求解得:

因为这里得对称轴为μ-λ2/2λ3(图里标错了)而实际对称轴(代表均值)为x=μ所以λ2=0;进而得到最简版本(红色字)

第一个积分等式是概率论的公式,在这里拿来解p(x)

在对第三个约束条件求解:



可解得:



进而得到:

其中前面的系数就是C

以上所得就是正态分布


把隔壁某人卷趴下


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容