机器学习系列4:逻辑回归与softmax回归详解

一、Logistic regression中sigmod函数推导

sigmod函数的推导

1.伯努利分布

一个事件x,其结果只有两种:x=1 or 0,比如抛硬币。
when x=1,p(1)=p\{x=1\}=p
when x=0, p(0)=p\{x=0\}=1-p
伯努利分布的概率质量函数为:
f(x|p)=p^x(1-p)^{1-x}
可以写成x - Bernoulli(p)

2.指数族分布

如果一个分布能用以下的方式写出,就设这类分布属于指数族:
p(y|n)=b(y)e^{\eta T(y)-\alpha(\eta)}
伯努利分布可以表示成:
\begin{split} p(x|y)= {} & p^x(1-p)^{1-x} {}\\ & = e^{xlnp+(1-x)ln(1-p)} {} \\ &=e^{x(lnp-ln(1-p))+ln(1-p)} {}\\ & = e^{xln\frac{p}{1-p }+ln(1-p)} \end{split}
可以发现,伯努利分布是指数族分布,其中:
\begin{cases} T(y) =x \\ b(y)=1 \\ \eta =ln\frac{p}{1-p} \\ \alpha(\eta)=-ln(1-p)=ln(1+e^{\eta} ) \end{cases}

3.sigmod函数的推导

标准的逻辑回归问题中,是二分类的,与伯努利分布类似。
\eta = ln\frac{p}{1-p} \Rightarrow e^\eta = \frac{p}{1-p} \Rightarrow p = \frac{1}{1+e^{-\eta}}
上式即为sigmod函数的由来。
综上:若有一个样本空间y|x;\theta - Bernoulli(p)
那么E[y|x;\theta]=p
h_\theta(x)=E[y|x;\theta]=p=\frac{1}{1+e^{-\eta}}=\frac{1}{1+e^{-\theta^Tx}}
h_\theta(x)即为sigmod \quad function

二、Logistic regression损失函数推导

与线性回归的损失函数推导类似,通过最大似然函数估计来推出:
首先已知:
p(y=1|x;\theta)=h_\theta(x) p(y=0|x;\theta)=1-h_\theta(x)
更简洁地,上式可以写成:
p(y|x;\theta)=h_\theta(x)^y(1-h_\theta(x))^{1-y}
假设m个样本都是相互独立的,即可得似然函数:
\begin{split} L(\theta)= {} & p(\vec{y}|x;\theta) {}\\ & =\prod_{i=1}^mp((y^{(i)}|x^{(i)};\theta) {}\\ & = \prod_{i=1}^m h_\theta(x^i)^{y^i} (1-h_\theta(x^i))^{1-y^i} \end{split}
取对数:
\begin{split} l(\theta)= {} & log(L(\theta)) {}\\ & = \sum_{i=1}^m \left \{ y^i log(h_\theta(x^i)) + (1-y^i)log(1-h_\theta(x^i)) \right \} \end{split}
我们要求似然函数的最大值,反之在似然函数前加个负号,就能得到损失函数:
J(\theta)= -\frac{1}{m} \sum_{i=1}^m \left \{ y^i log(h_\theta(x^i)) + (1-y^i)log(1-h_\theta(x^i)) \right \}

三、Logistic regression梯度下降

我们先将J(\theta)简化:
J(\theta)=-\frac{1}{m} \sum_{i=1}^m \left \{ y^i log(\frac{1}{1+e^{-\theta^Tx^i }}) + (1-y^i)log(1-\frac{1}{1+e^{-\theta^Tx^i }}) \right \} {}\\ =-\frac{1}{m} \sum_{i=1}^m \left \{ -y^i log({1+e^{-\theta^Tx^i }}) - (1-y^i)log({1+e^{\theta^Tx^i }}) \right \}
可得:
\begin{split} \frac{\partial {J(\theta) } }{\partial{\theta_j}} = {} & -\frac{1}{m} \sum_{i=1}^m \left \{ -y^i \frac{-x_j^i e^ {-\theta^Tx^i }} {1+e^ {-\theta^Tx^i }} - (1-y^i) \frac{x_j^ie^{\theta^Tx^i }}{1+e^{\theta^Tx^i }}) \right \} {}\\ &= -\frac{1}{m} \sum_{i=1}^m \left \{ y^i \frac{ x_j^i} {1+e^{\theta^Tx^i }} - (1-y^i) \frac{x_j^ie^{\theta^Tx^i }}{1+e^{\theta^Tx^i }}) \right \} {}\\ &= -\frac{1}{m} \sum_{i=1}^m \left \{ \frac{ y^ix_j^i - x_j^i e^{\theta^Tx^i } +y^ix_j^ie^{\theta^Tx^i }} {1+e^{\theta^Tx^i }} \right \} {}\\ &=-\frac{1}{m} \sum_{i=1}^m \left \{ \frac{y^i(1+e^{\theta^Tx^i }) - e^{\theta^Tx^i } } {1+e^{\theta^Tx^i }} x_j^i \right \} {}\\ &= -\frac{1}{m} \sum_{i=1}^m \left \{ y^i - \frac{1 } {1+e^{-\theta^Tx^i }} x_j^i \right \}{}\\ &= -\frac{1}{m} \sum_{i=1}^m \left \{ (y^i - h_\theta(x^i)) x_j^i \right \}{}\\ &=\frac{1}{m} \sum_{i=1}^m \left \{ ( h_\theta(x^i) - y^i ) x_j^i \right \} \end{split}

四、softmax函数推导

softmax回归是逻辑回归的推广,在标准的逻辑回归中,响应变量y只有两个类别:0或1,在softmax回归中,y可以是k个取值中的任意一个:
y \in \{ 1,2,\cdots,k \}
比如说在手写数字识别问题中,k=10,y有10个类别。
y取每个类别都对应一个概率,由于总的概率相加必为1,因此我们可以用k-1个参数来对这些概率值参数化。
令:\phi _i=p(y=i;\phi)
可得:
\phi_k=p(y=k;\phi)=1-\sum_{i=1}^{k-1}\phi_i
对应定义T(y) \in R^{k-1}
T(1)=\begin{bmatrix} 1 \\ 0 \\ 0 \\ \vdots\\ 0\\ \end{bmatrix} T(2)=\begin{bmatrix} 0 \\ 1 \\ 0 \\ \vdots\\ 0\\ \end{bmatrix} ,\cdots , T(k-1)=\begin{bmatrix} 0 \\ 0 \\ 0 \\ \vdots\\ 1\\ \end{bmatrix} T(k)=\begin{bmatrix} 0 \\ 0 \\ 0 \\ \vdots\\ 0 \\ \end{bmatrix}

T(y)是一个k-1维的向量,T(y)_i代表向量第i个元素。
这就是熟悉的one-hot向量的形式
再介绍一种几号:指示函数:1\{ \cdot \},若参数为真,则等于1,否则等于0.
比如1\{ 2==3 \}=01\{ 1==1 \}=1
根据定义,可知:T(y)_i=1 \{ y=i\} (确保理解此处)
因为:E[(T(y))_i]=p(y=i)=\phi_i
把k个多项式表示成指数分布:
\begin{split} p(y;\phi)= {} & \phi_1^{1 \{y=1 \} }\phi_2^{1 \{y=2 \}} \cdots \phi_k^{1 \{y=k \}} {}\\ & = \phi_1^{ T(y)_1} \phi_2^{ T(y)_2} \cdots \phi_k^{ 1-\sum_{i=1}^{k-1}T(y)_i} {}\\ &= exp \left\{ T(y)_1 log(\phi_1) + T(y)_2 log(\phi_2) + \cdots + (1- \sum_{i=1}^{k-1}T(y)_i)log(\phi_k) \right \} {}\\ &=exp \left\{ T(y)_1 log(\frac{\phi_1}{\phi_k}) + T(y)_2 log( \frac{\phi_2}{\phi_k }) + \cdots + log(\phi_k) \right \} {}\\ & =b(y)exp(\eta^TT(y)-\alpha(\eta)) \end{split}
其中:
\begin{cases} \eta = \begin{bmatrix} log( \frac{\phi_1}{\phi_k }) \\ log( \frac{\phi_2}{\phi_k }) \\ \vdots\\ log( \frac{\phi_{k-1}}{\phi_k }) \\ \end{bmatrix}\\ \alpha(\eta)=-log(\phi_k )\\ b(y)=1 \end{cases}
与i=1,2,...,k相对应的链接函数为:
\eta_i=log(\frac{\phi_i}{\phi_k})
为方便起见,定义:\eta_k=log(\frac{\phi_k}{\phi_k})=0
对链接函数取反函数:
e^{\eta_i}=\frac{\phi_i}{\phi_k} \phi_ke^{\eta_i}=\phi_i
得:\phi_k\sum_{i=1}^ke^{\eta_i}=\sum_{i=1}^k\phi_i=1
可得:
\phi_k=\frac{1}{\sum_{i=1}^{k}e^{\eta_i}}
得到响应函数:
\phi_i=\frac{e^{\eta_i}}{\sum_{j=1}^{k}e^{\eta_j}}
与逻辑回归,线性回归一样,softmax回归也属于广义线性模型,满足假设:自然参数\eta和输入x是线性相关的,即\eta=\theta^Tx
即可得到y的条件分布为:
\begin{split} p(y=i|x;\theta) {} & = \phi_i {}\\ &=\frac{e^{\eta_i}}{\sum_{j=1}^{k}e^{\eta_j}} {}\\ &=\frac{e^{\theta_i^Tx}}{\sum_{j=1}^{k}e^{\theta_j^Tx}} \end{split}
最终得到的适用于解决多分类问题的模型,即为softmax回归的激活函数。

一下还有softmax损失函数和梯度下降的推导,由于时间关系,改天再补上,请见谅。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,122评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,070评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,491评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,636评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,676评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,541评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,292评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,211评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,655评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,846评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,965评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,684评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,295评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,894评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,012评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,126评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,914评论 2 355

推荐阅读更多精彩内容