关于Logistic Regression对于线性可分的数据集的不收敛性的分析

问题的提出

最近我在进行斯坦福cs229的题目练习时候,碰到了一个不容易理解的case:即当面对线性可分的数据集的时候,Logistic Regression算法将永远无法收敛。

刚碰到的时候,心想stanford的题目真不是盖的,尽然百思不得其解。经过了各种google出来的帖子,文章,slides的阅读,目前算是有了一点点了解,但是还没真正理解透彻。所以目前先就理解的这部分按照逻辑叙述一下。

先从几个基本概念的介绍开始。

线性可分的数据集(Linealy separable data)

官方得说,就是有一堆标签数据,分别标为“1”,“0”两种。在其分布的坐标空间中,存在一个超平面可以正好将两种标签的数据分开,就叫做线性可分的数据集。一般情况下,只要这个数据是线性可分的,就存在无数个超平面可以将两类数据分开。

我们用更严格的数学语言描述一下,有一份数据项的数目为m的数据集:

\{(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), ... , (x^{(m)}, y^{(m)})\}, y^{(i)} \in \{0,1\}

如果这个数据是线性可分(Linear separability),则存在一个超平面:

\theta^Tx = 0

使得上面的数据集有如下不等式组成立:

\begin{cases} \theta^Tx^{(i)} > 0, \quad \ \ & If (y^{(i)}=1)\\ \theta^Tx^{(i)} < 0, \quad \ \ & If (y^{(i)}=0)\\ \end{cases}

其中 x向量中有一项为1 ,即x_0 = 1,这个处理主要是为了包含超平面的常数项,即W^Tx + b = 0

为了更好理解线性可分的概念,我们可以看一个直观一点的二维数据图:

线性可分

Logistic Regression的基本回顾

Logistic Regression中文叫逻辑回归,通俗得说就是二元线性回归或者多元线性回归后加上sigmoid函数,输出为二值分类。主要计算公式是损失函数:

\begin{cases} J = \frac{1}{m} \sum_{i=1}^m (- y^{(i)} \log(h_\theta(x^{(i)})) - (1-y^{(i)} ) \log(1-h_\theta(x^{(i)}))) \\ h_\theta(x) = \frac{1}{1+e^{-\theta x}} \\ \end{cases}

整个逻辑回归就是通过梯度下降法或者牛顿法来求出一个最优的向量,\theta,使得上式中的J取最小值。所谓梯度下降法为:

\theta := \theta - \alpha\frac{\partial J(\theta)}{\partial \theta}

分析

假设我们做Logistic Regression所用的是梯度下降法。即刚开始\theta值都是随机的,或者都是0。所以在运用迭代法之前,\theta所取的值组成的超平面,是无法将数据正好分成标记正确的两部分,所以迭代可以一直进行下去, 直到迭代出一个线性可分的\theta。此时继续迭代,我们的目标函数将不能继续收敛了。

首先因为当前\theta已经满足线性可分,所以损失函数J将简化成如下式子:

\begin{equation} J(\theta)=\begin{cases}\ \frac{1}{m} \sum_{i=1}^m (- y^{(i)} \log(h_\theta(x^{(i)}))) &when \ y^{(i)}=1\\ \frac{1}{m} \sum_{i=1}^m (-(1-y^{(i)} ) \log(1-h_\theta(x^{(i)}))) &when \ y^{(i)}=0\\ \end{cases} \end{equation}

我们再分析一下当\theta增加时,h_\theta(x)函数的趋势:

\begin{equation} h_\theta(x)=\frac{1}{1+e^{-\theta x}}=\begin{cases}\ increase &when \ \theta x > 0 \\ decrease &when \ \theta x < 0 \\ \end{cases} \end{equation}

又因为之前的关于\theta xy^{(i)} 的分析,可知上面两个式子的各自的两种情况是一一对应的,即从y^{(i)}=1可推出\theta x > 0,所以可以知道J(\theta)在随着\theta增加,而单调减,最终减小为0,但是这个过程是当\theta取无限大的时候,J(\theta)的极限才减小到0,所以J(\theta)在这种情况下没有最小值,\theta会永远增加下去而无法收敛。

后记

这篇收敛性的分析写得还是比较匆忙,仅仅是流水账地做了一点推理,很难做到逻辑缜密。而且我的思路的正确性有有待验证。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350