发生在 LR 之前的故事

  • 没有逻辑回归之前,我们是怎么思考一个分类问题呢?

Gaussian distribution (高斯分布)

假设在一个平面直角坐标系上朝原点扔飞镖,投掷的结果会产生随机误差。我们假设对于误差只和距离有关,与方向无关。如图所示:


image.png

约定 P 是概率密度函数,落在 x 的概率为 P(x), 落在 y 的概率为 P(y)。则有落在 (x,y) 点的概率为 P(x)P(y). 该点距离原点距离为 r。 令 g(r) = P(x)P(y)。

由上可知:

  • x = r cos(\theta), y = r sin(\theta)
  • g(r) 函数与 \theta 无关。
  • \int_{-\infty}^{\infty}p(x)dx=1

g(r)=p(x)p(y)
两边对 \theta 求导:
p(x){p(y)}'rcos(\theta)+p(y){p(x)}'(-rsin(\theta))=0
\frac{{p(x)}'}{p(x)x}=\frac{{p(y)}'}{p(y)y}

上式对任意的 x,y 均成立, 且 x,y 相互独立。所以该比值一定为定值。即:
\frac{{p(x)}'}{p(x)x}=C
\frac{{p(x)}'}{p(x)}=Cx
ln'p(x)=Cx
lnp(x)=\frac{1}{2}Cx^{2}+b
p(x)=Ae^{\frac{1}{2}Cx^{2}}

已知 \int_{-\infty}^{\infty}p(x)dx=1, 则必有 C 小于 0,上式改写为:
p(x)=Ae^{-\frac{1}{2}kx^{2}}
其中 k>0
\int_{-\infty}^{\infty}Ae^{-\frac{1}{2}kx^{2}}dx=1
\int_{0}^{\infty}e^{-\frac{1}{2}kx^{2}}dx=\frac{1}{2A}
令:t=\sqrt{\frac{k}{2}}x
\sqrt{\frac{2}{k}}\int_{0}^{\infty}e^{-t^{2}}dt=\frac{1}{2A}
\sqrt{\frac{2}{k}}\frac{\sqrt{\pi}}{2}=\frac{1}{2A}
p(x)=\sqrt{\frac{k}{2\pi}}e^{-\frac{1}{2}kx^{2}}

由统计学定义,连续性概率密度函数:

  • \mu=\int_{-\infty}^{\infty}x*p(x)dx
  • \sigma^2=\int_{-\infty}^{\infty}(x-\mu)^2*p(x)dx

xp(x) 为奇函数,故均值为0,即 \mu 为 0 。则有:
\int_{-\infty}^{\infty}x^2p(x)dx=\sigma^2
\int_{-\infty}^{\infty}x^2*\sqrt{\frac{k}{2\pi}}e^{-\frac{1}{2}kx^{2}}dx=\sigma^2

利用分部积分法:
\int_{}^{}u(x)v'(x)dx=uv-\int_{}^{}u'(x)v(x)dx
根据上式,令:

  • u(x)=x
  • v'(x)=xe^{-\frac{1}{2}kx^{2}}
  • v(x)=-\frac{1}{k}e^{-\frac{1}{2}kx^{2}}
    \int_{-\infty}^{\infty}x^2*\sqrt{\frac{k}{2\pi}}e^{-\frac{1}{2}kx^{2}}dx=2\sqrt{\frac{k}{2\pi}}\int_{0}^{\infty}x*xe^{-\frac{1}{2}kx^{2}}dx
    \int_{0}^{\infty}x*xe^{-\frac{1}{2}kx^{2}}dx=(-\frac{x}{k}e^{-\frac{1}{2}kx^{2}})|_{0}^{\infty}-\int_{0}^{\infty}(-\frac{1}{k})e^{-\frac{1}{2}kx^{2}}dx
    (-\frac{x}{k}e^{-\frac{1}{2}kx^{2}})|_{0}^{\infty}=0
    \int_{0}^{\infty}(-\frac{1}{k})e^{-\frac{1}{2}kx^{2}}dx=(-\frac{1}{k})\sqrt{\frac{2}{k}}\frac{\sqrt{\pi}}{2}
    则有:
    2\sqrt{\frac{k}{2\pi}}\int_{0}^{\infty}x*xe^{-\frac{1}{2}kx^{2}}dx=2\sqrt{\frac{k}{2\pi}}(\frac{1}{k})\sqrt{\frac{2}{k}}\frac{\sqrt{\pi}}{2}=\frac{1}{k}
    k=\frac{1}{\sigma^{2}}

最终得到:
p(x)=\sqrt{\frac{k}{2\pi}}e^{-\frac{1}{2}kx^{2}}=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2\sigma^{2}}x^{2}}
至此,我们就得到了一个均值为 \mu(这里的均值为0),方差为\sigma 的正态概率分布函数,也就是一维的高斯分布。

LR 以及 Sigmod 函数的由来

通过上面我们已经知道了一维的高斯分布:
f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}}
其中 \mu=\frac{1}{n}\sum_{i=1}^{n}x_{i}\sigma=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu)^{2}

这里我们直接给出多维(D维)高斯分布,具体推导过程暂不推导:
f(x)=\frac{1}{(2\pi)^{\frac{D}{2}}}*\frac{1}{|\sum|^{\frac{1}{2}}}e^{[-\frac{1}{2}(x-\mu)^{T}\sum^{-1}(x-\mu)]}
此时的\mu 是一个 D1 的向量,D 是维度数目,即特征向量。\sigma 是协方差矩阵,形状大小为 DD。
附图:

image.png

分类问题的解决思路

假设现在有 n 个样本,总共有两个类别:C1、C2。假设整体样本符合正态分布由极大似然估计:
L(\mu,\sum)=f_{\mu}(x_{1})f_{\mu}(x_{2})···f_{\mu}(x_{n})
对于 C1 类别则有:
L(\mu_{1},{\sum}_{1})=f_{\mu_{1}}(x_{1})f_{\mu_{1}}(x_{2})···f_{\mu_{1}}(x_{n})
求极大值,解出当前的\mu_{1}{\sum}_{1}即可。
对于 C2类别则有:
L(\mu_{2},{\sum}_{2})=f_{\mu_{2}}(x_{1})f_{\mu_{2}}(x_{2})···f_{\mu_{1}}(x_{n})
求极大值,解出当前的\mu_{2}{\sum}_{2}即可。
最终得到:
P(x|C_{1})=\frac{1}{(2\pi)^{\frac{D}{2}}}*\frac{1}{|{\sum}_{1}|^{\frac{1}{2}}}e^{[-\frac{1}{2}(x-\mu_{1})^{T}\sum_{1}^{-1}(x-\mu_{1})]}

P(x|C_{2})=\frac{1}{(2\pi)^{\frac{D}{2}}}*\frac{1}{|{\sum}_{2}|^{\frac{1}{2}}}e^{[-\frac{1}{2}(x-\mu_{2})^{T}\sum_{2}^{-1}(x-\mu_{2})]}
得到 C1、C2的高斯分布函数,我们就可以计算每个样本属于类别的概率。

当然这是最传统的解法,接下来我们换个角度来尝试解决问题。
由全概率公式,我们可以得到:
P(C_{1}|x)=\frac{P(x|C_{1})P(C_{1})}{P(x|C_{1})P(C_{1})+P(x|C_{2})P(C_{2})}
P(C_{1}|x)=\frac{1}{1+\frac{P(x|C_{2})P(C_{2})}{P(x|C_{1})P(C_{1})}}
根据数据可以知道这里的P(C_{1})P(C_{2}) 为已知,且比值为定值。
令:
z(x) = \frac{P(x|C_{2})P(C_{2})}{P(x|C_{1})P(C_{1})}
lnz(x) = ln{\frac{P(x|C_{2})}{P(x|C_{1})}} + ln{\frac{P(C_{2})}{P(C_{1})}}
假设我们现在已经知道了 C1、C2的高斯分布函数,带入上式,进行运算:
lnz(x) = ln{\frac{\frac{1}{(2\pi)^{\frac{D}{2}}}*\frac{1}{|{\sum}_{2}|^{\frac{1}{2}}}e^{[-\frac{1}{2}(x-\mu_{2})^{T}\sum_{2}^{-1}(x-\mu_{2})]}}{\frac{1}{(2\pi)^{\frac{D}{2}}}*\frac{1}{|{\sum}_{1}|^{\frac{1}{2}}}e^{[-\frac{1}{2}(x-\mu_{1})^{T}\sum_{1}^{-1}(x-\mu_{1})]}}}+ln{\frac{P(C_{2})}{P(C_{1})}}

lnz(x) = ln{\frac{|{\sum}_{1}|^{\frac{1}{2}}}{|{\sum}_{2}|^{\frac{1}{2}}}} e^{\{[-\frac{1}{2}(x-\mu_{2})^{T}\sum_{2}^{-1}(x-\mu_{2})]-[-\frac{1}{2}(x-\mu_{1})^{T}\sum_{1}^{-1}(x-\mu_{1})]\}}+ln{\frac{P(C_{2})}{P(C_{1})}}

lnz(x) = ln{\frac{|{\sum}_{1}|^{\frac{1}{2}}}{|{\sum}_{2}|^{\frac{1}{2}}}} +[-\frac{1}{2}(x-\mu_{2})^{T}{\sum}_{2}^{-1}(x-\mu_{2})]-[-\frac{1}{2}(x-\mu_{1})^{T}{\sum}_{1}^{-1}(x-\mu_{1})]+ln{\frac{P(C_{2})}{P(C_{1})}}

lnz(x) = ln{\frac{|{\sum}_{1}|^{\frac{1}{2}}}{|{\sum}_{2}|^{\frac{1}{2}}}} -\frac{1}{2}x^{T}{\sum}_{2}^{-1}x+\mu_{2}^{T}{\sum}_{2}^{-1}x-\frac{1}{2}\mu_{2}^{T}{\sum}_{2}^{-1}\mu_{2}+\frac{1}{2}x^{T}{\sum}_{1}^{-1}x-\mu_{1}^{T}{\sum}_{1}^{-1}x+\frac{1}{2}\mu_{1}^{T}{\sum}_{1}^{-1}\mu_{1}+ln{\frac{P(C_{2})}{P(C_{1})}}
这里不妨令 {\sum}_{1}={\sum}_{2} = \sum
则上式可写作:
lnz(x) = (\mu_{2}-\mu_{1})^{T}{\sum}^{-1}x-\frac{1}{2}\mu_{2}^{T}{\sum}^{-1}\mu_{2}+\frac{1}{2}\mu_{1}^{T}{\sum}^{-1}\mu_{1}+ln{\frac{P(C_{2})}{P(C_{1})}}

其中对于 (\mu_{2}-\mu_{1})^{T}{\sum}^{-1} 运算结果为矩阵,记为 W^{T}。对于-\frac{1}{2}\mu_{2}^{T}{\sum}^{-1}\mu_{2}+\frac{1}{2}\mu_{1}^{T}{\sum}^{-1}\mu_{1}+ln{\frac{P(C_{2})}{P(C_{1})}} 运算结果为常数,记作 b。

到这里我们突然发现,我们不用再去拟合\mu\sum,既然最终的结果只和W^{T}b 有关,那么直接对这两个变量进行拟合即可。也就是 LR 思想,拟合 W^{T}b,然后使用 sigmoid 函数进行分类。

现在我们可以把上式写作:
lnz(x) = W^{T}x+b
z(x) = e^{W^{T}x+b}
这里有一点需要注意,在我们最开始令的时候,令 z(x) = \frac{P(x|C_{2})P(C_{2})}{P(x|C_{1})P(C_{1})},其实不难发现,如果令 z(x) = \frac{P(x|C_{1})P(C_{1})}{P(x|C_{2})P(C_{2})} ,区别就是最后计算结果\mu_{1}\mu_{2}的位置互换了,并不会影响最终的运算结果 z(x) = e^{W^{T}x+b}

至此,根据推导方法不同我们得到
P(C_{1}|x)=\frac{1}{1+\frac{P(x|C_{2})P(C_{2})}{P(x|C_{1})P(C_{1})}}

P(C_{1}|x)=\frac{1}{1+z(x)}=\frac{1}{1+e^{(W^{T}x+b})} 或者
P(C_{1}|x)=\frac{1}{1+z(x)^{-1}}=\frac{1}{1+e^{-(W^{T}x+b)}}
上面两式虽然不同,但并不会影响最终的分类结果,只是一个相反的操作。当然原始的 LR 使用的是 P(C_{1}|x)=\frac{1}{1+z(x)^{-1}}=\frac{1}{1+e^{-(W^{T}x+b)}},对此我更愿意相信,这样我们得到的刚好就是 Sigmoid 函数,整个算法看起来更加的合理。(当然如果你使用另一个式子,依然可以达到和 LR一样效果,但不得不承认这样做的意义并不是很大)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,843评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,538评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,187评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,264评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,289评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,231评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,116评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,945评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,367评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,581评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,754评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,458评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,068评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,692评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,842评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,797评论 2 369
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,654评论 2 354