逻辑回归和最大熵模型

逻辑回归

逻辑分布

在介绍逻辑回归之前,我先简单介绍一些logistic分布,在此之前,我只当其为一个简单的函数。

logistic分布
定义: 假设X为连续随机变量,X服从logistic分布,则X的分布函数和密度函数分别如下:
F(x)=P(X \leq x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}

f(x)=F'(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{(x-\mu)/\gamma})}
其中\mu为位置参数,\gamma>0为形状参数,\gamma值越小,曲线在中心附近增长越快

对应的密度函数和分布函数的图如下:
[图片上传失败...(image-c6edd0-1551349596414)]

分布函数又叫logistic函数,由上图可以看到,它是呈现S型,该曲线以点(\mu,\frac{1}{2})为中心对称,满足
F(-x+\mu)-\frac{1}{2}=-F(x+\mu)+\frac{1}{2}
而标准的logistic函数,即当\mu=0\gamma=1时就是我们常用的sigmoid函数,也是常用于神经网络中激活函数
且sigmoid函数的有一个非常好的特点,如下👌
f(x)=\frac{1}{1+e^{(-x)}}
f'(x) = f(x)(1-f(x))


二项逻辑回归(logistic regression)

逻辑回归是在线性模型的基础上增加了sigmoid函数,而Sigmoid函数引入了非线性因素,使得逻辑回归可以轻松处理0/1分类问题。
对于二项逻辑回归模型有如下的条件概率:
P(y^{(i)}=1|x^{(i)})= \frac{1}{1+e^{-w^Tx^{(i)}}}=\frac{e^{w^Tx^{(i)}}}{1+e^{w^Tx^{(i)}}}
P(y^{(i)}=0|x^{(i)})= 1- P(y^{(i)}=1|x^{(i)})=\frac{1}{1+e^{w^Tx^{(i)}}}
二项逻辑回归用于0/1分类问题是使用的损失函数为对数损失函数,即
L(y_i,f(x_i))=-log p(y_i|x_i)
那么最终的代价函数如下:
L(w,x)=-\frac{1}{N}\sum_{i=1}^N \lbrace y^{(i)}logp(y^{(i)}=1|w,x^{(i)})+(1-y^{(i)})logp(y^{(i)}=0|w,x^{(i)})\rbrace

《详述机器学习中的损失函数》有详细举例介绍逻辑回归的推导过程。

NOTE:
二项逻辑回归假设因变量Y为伯努力分布,而线性模型假设因变量服从高斯分布


模型参数估计

用极大似然估计模型参数👀
对于二项逻辑回归模型,假定概率分布服从伯努利分布【0-1分布】,其概率质量函数PMF为:f(x)=p^x(1-p)^{(1-x)},其中x只能取0或者1,那么二项逻辑回归的似然函数可以表示:为L(w)=\prod_{i=1}^Np(y^{(i)})=1|w,x^{(i)})^{y^{(i)}}p(y^{(i)}=0|w,x^{(i)})^{1-y^{(i)}}

那么对上式取对数,得到对数似然函数为:
logL(w)=\sum_{i=1}^Ny^{(i)}logp(y^{(i)}=1|w,x^{(i)})+(1-y^{(i)})logp(y^{(i)}=0|w,x^{(i)})

则全体样本的代价函数为:
logL(w)=-\sum_{i=1}^N\lbrace y^{(i)}logp(y^{(i)}=1|w,x^{(i)})+(1-y^{(i)})logp(y^{(i)}=0|w,x^{(i)})\rbrace

因此,也可以从因变量Y为伯努力分布去理解二项逻辑回归的代价函数。那么对w的参数估计就变成了对代价函数求极小值,得到w的估计值,通常采用牛顿法和梯度下降法求解w


多项逻辑回归

二项逻辑回归用于二分类,当然可以对其进行推广,用于多分类,对应的模型叫做多项逻辑回归模型(multi-nominal logistic regression model)

假设变量Y取值为{1,2,...,K},那么多项逻辑回归模型如下:
P(Y=k|x)=\frac{e^{w^Tx}}{1+\sum_{k=1}^{K-1}e^{w^Tx}},k=1,2,...,K-1
P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}e^{w^Tx}}

而二项逻辑回归的方法也可以用于多项式逻辑回归

代码实现


整理后再写入


最大熵模型

最大熵原理

最大熵模型是概率模型学习的一个准则,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型,通常用约束条件来确定概率模型的集合,所以,最大熵原理可以表述为在满足约束条件的模型集合中选择熵最大的模型

熵是由信息论男神克劳德·艾尔伍德·香农(Claude Elwood Shannon )在1948年提出的“信息熵“,用来描述信息的不确定程度,熵越大,不确定程度越大,而系统的混乱程度越低,熵的单位通常为比特。

假设离散随机变量X的概率分布是 P(X),其熵是
H(P)=-\sum_xP(x)logP(x)

且熵满足不等式0\leq H(P)\leq log|X|,|X|X的取值个数,当且仅当X为均匀分布时,右边等号成立,即X服从均匀分布时,熵最大。当我们需要对一个事件的概率分布进行预测时,最大熵原理告诉我们所有的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设(不做主观假设这点很重要)。也就是让概率分布最均匀,预测的风险最小

最大熵模型定义

假设分类模型是一个条件概率分布P(Y|X)X表示输入,Y表示输出,这个分类模型表示,给定一个输入X,以条件概率P(Y|X)输出Y
给定训练集T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}
对于给定的训练集可以确定联合分布P(X,Y)以及边缘分布P(X)的经验分布,确定方法都是通过频数(v)/样本总数(N),即

\tilde{P}(X=x,Y=y)=\frac{v(X=x,Y=y)}{N}

\tilde{P}(X=x)=\frac{v(X=x)}{N}

特征函数f(x,y)表示输入与输出之间的关系
f(x,y) = \begin{cases} 1, & \text{x与y满足某种关系} \\ 0, & \text{else} \end{cases}

那么特征函数f(x,y)关于训练集联合分布的期望值,用E_\tilde{P}(f)表示为:

E_\tilde{P}(f)=\sum_{x,y}\tilde{P}(x,y)f(x,y)

而特征函数f(x,y)关于模型P(Y|X)与经验分布\tilde{P}(X)的期望表示为:

E_P(f)=\sum_{x,y}\tilde{P}(x)P(y|x)f(x,y)

如果模型能够获取到训练集中到信息,那么就假设这两个期望值相等,即

\sum_{x,y}\tilde{P}(x,y)f(x,y)=\sum_{x,y}\tilde{P}(x)P(y|x)f(x,y)

最大熵模型

假设满足所有约束条件的模型集合为

C=\lbrace P\in\rho|E_P(f_i)=E_\tilde{P}(f_i),i=1,2,...,n\rbrace

定义在条件概率分布P(Y|X)的条件熵为:
H(Y|X)=-\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x)
则模型C中条件熵H(Y|X)最大的模型称为最大熵模型

NOTE
⛽️条件熵推导:
\begin {align} H(Y|X)&= \sum_{x\in X}\tilde{P}(x)H(Y|x) \\ & = -\sum_{x\in X}\tilde{P}(x)\sum_{y\in Y}P(y|x)logP(y|x) \\ & = -\sum_{x\in X,y\in Y}\tilde{P}(x)P(y|x)logP(y|x) \end{align}

最大熵模型的学习

给定训练集以及特征函数T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}以及特征函数f_i(x,y),i=1,2,...,n,最大熵模型等价于约束最优化问题
\begin{equation} \mathop{\arg\max}\quad H(Y|X)=-\sum_{x,y}\tilde{P}(x)P(y|x)logP(y|x) \\ \begin{cases} s.t.&\quad E_P(f_i)=E_\tilde{P}(f_i),i=1,2,...,n \\ &\quad\sum_{y}P(y|x)=1 \end{cases} \end{equation}

求解过程

1.把最大值问题等价为求最小值问题

2.引入拉格朗日将有约束的问题转化为无约束的问题L(P,w)

3.基于构造的拉格朗日等式L(P,w)P(y|x)求偏导

4.求出P(y|x)再带入L(P,w)对拉格朗日乘子w求偏导

打公式太麻烦,为就直接手写放照片来❤️
最大熵公式推导过程
[图片上传失败...(image-14a775-1551349596414)]
最终得到最大熵模型如下:
P_w(y|x)=\frac{1}{Z_w(x)}exp(\sum_i^nw_if_i(x,y))
其中
Z_w(x)=\sum_{y}exp(\sum_i^nw_if_i(x,y))

极大似然估计

极大似然是参数估计的一种方式,原理是利用已知样本去推导出最大概率出现该样本的参数。


理解之后再写入


总结

logistic回归和最大熵模型都是对数线性模型 它们的学习一般采用极大似然估计或者正则化极大似然估计,逻辑回归和最大熵模型学习可以转化为无约束最优化问题,求解该类最优化算法有改进的迭代尺度法、梯度下降法、拟牛顿法(具体最优化方法再单独介绍)。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容