逻辑回归理解及公式推导

逻辑回归(logistic-regression)

逻辑回归:个人理解就是一个线性回归经过阶跃函数的处理,变成一个二项分类器,输出结果只能是0,1的条件概率的大小,其实是一种概率模型。

sigmoid函数:是一种阶跃函数(step function),在不同横坐标尺度下,可以从0瞬间跳到1。从图形可以发现,当x>0,sigmoid函数值无限接近于1,反之接近于0。函数形式如下:\sigma(z) = \frac{1}{1+e^{-\omega^{T}x}}

image

逻辑回归可以看成,在参数\theta对已知x的条件下比较P(y=1| x;\theta),P(y=0| x;\theta)概率大小,并选择较大的概率作为分类结果。

核心在于:

逻辑回归的公式-->\frac{1}{1+e^{-\omega^{T}x}}
用已知的数据集和训练样本x_i来训练这个模型,从而做到对未知的测试样本进行准确的估计和预测。所以需要对上述公式进行参数估计,求出\omega的值

P_{y=1}=\frac{1}{1+e^{-\omega^T{x}}} = p

参数估计:

  • 损失函数:
    • 线性回归-->最小二乘法
    • 逻辑回归-->最大似然法

最大似然估计(Maximum Likelihood Estimation)

总体X为连续型,概率密度为f(x;\theta),\theta \in \Theta,\theta是待估计参数,\Theta\theta可能取值的范围,X_{1},X_{2}....X_{n}是来自X的样本,联合密度为\prod_{i=1}^{n}f(x_{i},\theta)
随机点X_{1},X_{2}...X_{n}落在点(x_{1},x_{2}...x_{n})邻域内的概率近似为\prod_{i=1}^{n}f(x_{i},\theta)dx_{i}
这是一个关于\theta的函数,值随\theta变化,取估计值\hat\theta使得概率达到最大,由于因子\prod_{i=1}^{n}dx_{i}不随 \theta变化,所以只考虑函数
L(\theta)=L(x_{1},x_{2}...x_{n};\theta)=\prod_{i=1}^{n}f(x_{i};\theta)的最大值,把L(\theta)称为样本的似然函数,若L(x_{1},x_{2}...x_{n};\hat\theta)=\max\limits_{\theta\in\Theta}L(x_{1},x_{2}...x_{n};\theta)则把\hat\theta(x_{1},x_{2}...x_{n})作为\theta的最大似然估计值,称\hat\theta(X_{1},X_{2}...X_{n})\theta的最大似然估计量。

求最大似然估计的步骤:

  • 写出分布律或者概率密度函数\prod_{i=1}^{n}p(x_{i};\theta)或者\prod_{i=1}^{n}f(x_{i};\theta)

  • 写出似然函数L(x_{1},x_{2}\ldots,x_{n};\hat\theta)

  • 对似然函数中的参数\theta求偏导数

对于最大似然估计法:已经取到样本值x_{1},x_{2}...x_{n},表明取到这一样本值的概率L(\theta)比较大,所以不会考虑那些不能使样本x_{1},x_{2}...x_{n}出现的\theta \in \Theta作为\theta的估计,通过固定样本观察值x_{1},x_{2}...x_{n},在\theta可能取值范围\Theta内挑选使得似然函数L(x_{1},x_{2}...x_{n};\theta)达到最大的参数\hat\theta作为估计值。

逻辑回归的损失函数

当事件结果就只有2个标签时,y_{n} \in (0,1),把事件发生的概率看作p,那么标签1的概率为
P_{y=1}=\frac{1}{1+e^{-{w}^T{x}}} = p
同理,标签0的概率为P_{y=0}=1-p
所以这个事件发生的概率可以写成
P(y \mid x)= \begin{cases} p,& y=1\\ 1-p,&y=0\\ \end{cases}
为了方便计算,也可以等价于:P(y_{i} \mid x_{i}) = p^{y_{i}}(1-p)^{1-y_{i}}
这个函数的含义是,在对于一个样本(x_{i},y_{i}),标签是y_{i}对应的概率是P(y_{i} \mid x_{i} )= p^{y_{i}}(1-p)^{1-y_{i}},而对于一组数据,其样本概率为P_{总} = P(y_{1} \mid x_{1})P(y_{2} \mid x_{2})\ldots P(y_{n} \mid x_{n})=\prod_{n=1}^Np^{y_{n}}(1-p)^{1-y_{n}}
可以通过取对数,来简化计算,此外P_{总}是一个只包含\omega一个未知数的函数:
\begin{aligned} F(\omega)=ln(P_{总})&=ln(\prod_{n=1}^Np^{y_{n}}(1-p)^{1-y_{n}})\\ &=\sum_{n=1}^{N}ln(p^{y_{n}}(1-p)^{1-y_{n}})\\ &=\sum_{n=1}^N(y_{n}ln(p)+(1-y_{n})ln(1-p))\\ \end{aligned}
式子(3)是关于\omega的一个函数,P=\frac{1}{1+e^{-{w}^T{x}}},可以通过改变\omega的值来改变总概率P_{总}的大小。所以要使得P_{总}概率最大,只要选择一个\omega^{*}使得概率最大即可。这种方法就是最大似然估计。

所以现在的问题从概率问题转化成了参数估计问题,以及一个求最优化的问题。用数学语言描述就是:
\omega^{*}= arg\max_{\omega}F(\omega)
通常是采用梯度下降和拟牛顿法来解决这类问题。

梯度

关于梯度,对一个多维向量x = (x_{1},x_{2}\ldots,x_{n})来讲,它的梯度就是分别对它每个分量求导数x'=(x'_{1},x'_{2}\ldots,x'_{n})

推导过程

F(\omega)作为代价函数,梯度下降法的一般公式是:\theta := \theta - \alpha\cdot \nabla f(\omega)
已知
\begin{cases} F(\omega)=\sum_{n=1}^N(y_{n}ln(p)+(1-y_{n})ln(1-p))\\ p=\frac{1}{1+e^{-{w}^T{x}}}\\ \end{cases}
连立两式,求分别求导数可以得到解析式,对p用链式法则求导推导如下:u=1+e^{-\omega^{T}x},v=-\omega^Tx,p=(\frac{1}{u})'\cdot v'
\begin{aligned} p'&=-\frac{1}{(1+e^{-\omega^{T}x})^2}\cdot(1+e^{-\omega^{T}x})'\\ &=-\frac{1}{(1+e^{-\omega^{T}x})^2}\cdot e^{-\omega^{T}x}\cdot(-\omega^{T}x)'\\ &=-\frac{1}{(1+e^{-\omega^{T}x})^2}\cdot e^{-\omega^{T}x}\cdot(-x)\\ &=\frac{1}{1+e^{-\omega^{T}x}}\cdot \frac{e^{-\omega^{T}x}}{1+e^{-\omega^{T}x}}\cdot x\\ \end{aligned}
p代入上式可以得到p'=p(1-p)x,同理(1-p)'=-p(1-p)x,之后可以对F(\omega)求梯度,在求梯度前,需要知道几个结论(Ax)'=A^T,(x^TA)' = A可以在这里查看:

\begin{aligned} \nabla F(\omega)'&=\nabla(\sum_{n=1}^N(y_{n}ln(p)+(1-y_{n})ln(1-p)))\\ &=\sum(y_{n}ln'(p)+(1-y_{n})ln'(1-p))\\ &=\sum((y_n\frac1{p}p')+(1-y_n)\frac1{1-p}(1-p))'\\ &=\sum((y_n(1-p)x_n-(1-y_n)px_n)\\ &=\sum_{n=1}^{N}(y_n-p)x_n\\ \end{aligned}
所以最终得到的梯度为:
\nabla F(\omega)=\sum_{n=1}^{N}(y_n-p)x_n

之前已经知道,求解参数的方法一般采用梯度下降法,在获得梯度\nabla F(\omega)之后,由于这边是求能让p概率最大的\omega,那么选择梯度上升算法。迭代步骤为:\theta:=\theta+\nabla F(\omega)
展开后等于:
\theta:=\theta+\sum_{n=1}^{N}(y_n-p)x_n;p=\frac{1}{1+e^{-\omega^{T}x}}

随机梯度下降

梯度下降求导每次都用了所有样本点参与梯度计算,随机梯度下降的做法则是随机算则一个样本点(x_i,y_i)来代表整体,使得E(G(\omega))=\nabla F(\omega),所以迭代过程为:\theta:=\theta+\alpha N(y_n-p)x_n;p=\frac{1}{1+e^{-\omega^{T}x}}
\alpha N也都是常数,所以:\theta:=\theta+\alpha(y_n-p)x_n;p=\frac{1}{1+e^{-\omega^{T}x}}

需要补充的数学知识:

  • 复合函数求导-->链式法则
  • 最大似然估计
  • 期望和无偏估计

小结

对于逻辑回归而言,其实际就是一个sigmoid函数套上一个回归模型,对于输入X有输出y \in (0,1),所以只需要对其中的参数进行估计即可,对于参数估计问题,涉及到代价函数,而逻辑回归的代价函数可以用最大似然估计得到。因为从概率的角度来讲,对于已知的样本,通常认为在某一参数下取到这些样本的概率一定是比较大的,所以可以通过挑选参数集合中最大的参数取值来使得估计概率最大。最后可以采用梯度下降法,为了提高效率也可以使用随机梯度下降来求参数,因为这里是求最大值,只需要将梯度方向符号改为+即可。

参考阅读:

  1. 逻辑回归原理小结.刘建平
  2. 《概率论与数理统计》.盛骤
  3. 《机器学习》.周志华
  4. 逻辑回归公式推导
  5. 关于文中公式排版以及输入
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容