浅谈逻辑回归

看了不少有关逻辑回归的文章,感觉讲的对新手不是很友好。

所以冒昧写一篇,权当抛砖引玉。本人精力能力有限,个人理解可能与正确情况存在偏差,欢迎大家指正。

在写具体的逻辑回归之前,先想说下分类的基本思路与步骤

1.分类的基本思路与步骤

1.我们需要一个基本模型。给这个基本模型输入一系列样本的数据,依据这个模型的输出来判断这个样本属于哪一类。

假定右边的那个y=x就是我们的基本模型,我们在分类的时候,可以规定当输出值,也就是y的值,大于0时(y轴右半边),可以将这个输入对应的样本分为正类;当y小于0时,将它分为负类

2.对待不同的问题,这个模型需要不同的优化调整,以达到分类相应问题的能力。

比如一个样本有两个属性值,分别为1,-1。权重分别为2,1。样本为负类。我们计算的时候,发现2*1-1*1=1,在y轴右边,应该分类为正类。是错误分类,所以我们可以调整权重为1,2或者改变模型为y=x-2。

3.为了优化这个模型,我们需要寻找一个优化函数,就是代价函数,需要依据这个函数,来优化我们的模型。

比如我们需要让属于一个类的点之间的距离小等等

在对模型进行优化调整的时候,一般是从两个方面入手。

调整函数参数,达到调整函数模型的目的

调整样本属性数据的权重,达到目的

绝大多数情况下,我们是选择后者来进行调整模型

2.逻辑回归

逻辑回归中,它也确定了一个基本函数模型,叫做逻辑回归模型。表达式如下

它的函数图像是这样的:

对于逻辑回归的介绍,可以从两个角度来思考。

从对数几率的角度理解,下回再说

1、从概率的角度来考虑

1)当我们进行分类问题的时候,如果有一只猫,我们需要去判断它的性别。我们用一个函数去检测它,发现计算出来它属于公猫的概率大于0.5。我们是不是有一定理由去相信它是一直公猫。

现在,我们回头看下逻辑回归函数,我们发现这个函数的取值在0到1之间,符合概率中的0到1取值。

当有个样本需要我们进行分类的时候,只要将这个样本的属性,带入到这个函数中,计算出来的结果,大于0.5,它就属于A类,小于0.5,它就属于B类。

从这个角度理解,这个函数就是一个简单的决策函数,一个输出概率的函数,我们依据输出的概率进行分类。

2)那接下来,我们需要确定上述逻辑回归函数的输入。

我们将输入表示成样本属性与权重的乘积和。

上述逻辑回归函数的输入表示为z,若我们将样本的属性值表示为x1,x2。则z=w1x1+w2x2+b。

大致来看,模型基本算搭建好了。如果我们有样本,将样本的属性值,通过权重作用后,输入到逻辑回归函数中,然后依据逻辑回归函数的输出值,进行分类,最后与样本的实际类别进行比较,再通过调整权重或者模型,直到得到比较满意的结果

这样看,逻辑回归函数,只是计算属性的输出值,根据输出值来判断类型而已。

3)但,仿佛没有这么简单。一群蛋疼的人,又开始捣鼓起来。

我们不根据输出值与0.5的关系来进行判断,那样大材小用了。输出值明明可以当作概率的。

比如

样本属性值1属性值2实际类别Ax1=5x2=9正/y=1Bx1=3x2=2负/y=0

假如我们规定,属于正类的概率表示为p,p为上面的g(z),z=w1x1+w2x2+b。

则负类的概率为1-p,1-p为上面的1-g(z),z=w1y1+w2y2+b。

注意,这里有个逻辑。我们写A样本概率的时候,如果知道它是正类,它是不是利用g(z)求解出的结果是最大的。若A是负类,那我们用g(z)求解出来的数值也许为0.3,也就是说,如果我们用1-g(z)这个来求解A的负类概率的话,是为0.7

也就是说,如果所有样本都能正确分类,正类的用p计算,负类的用1-p计算,这样各自都可以得到最大的结果。那我们可以构造一个函数,它表示每个样本被分类后的概率乘积,我们的目的,是为了让这个函数最大,也就达到样本被正确分类。

所以我们需要一个表达式来表达,每一个样本被分类的概率

我们来看下这个表达式的巧妙之处。

当一个样本A被分类成正类别的时候,y=1,P=p;若A真为正类别,那这个P是最大的。

当一个样本B被分类成负类别的时候,y=0,P=1-p;若B真为负类别,那这个P也是最大的。

若有n个样本,如果都被正确分类,各自最大,则他们的概率乘积也是最大的。也就是求下面函数的最大

接下来,就是对这个进行运算,取对数,将乘积变成相加。为了计算这个的最大值,可以加一个负号,变为计算它的最小值。

直接搬运其他人内容,下图中,h(x)为上式的p,L为上式的F

总结下,将逻辑回归的输出值当作概率,若样本被正确分类,利用正类利用p,负类利用1-p所计算的概率都是最大的,所以若所有样本都被正确分类,则每个样本概率的乘积也是最大的。可以利用数学方法,加负号,将求解最大值运算转换为求解最小值运算。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351

推荐阅读更多精彩内容

  • 注:题中所指的『机器学习』不包括『深度学习』。本篇文章以理论推导为主,不涉及代码实现。 前些日子定下了未来三年左右...
    我偏笑_NSNirvana阅读 39,947评论 12 145
  • 以西瓜书为主线,以其他书籍作为参考进行补充,例如《统计学习方法》,《PRML》等 第一章 绪论 1.2 基本术语 ...
    danielAck阅读 4,507评论 0 6
  • 大家好,我先做一下自我介绍,我叫大牙苏,从参加口才训练营已经有俩个多月的时间了,从二月底到四月的学习经历及收获分享...
    大牙苏_e0dc阅读 395评论 3 4
  • 很开心,今天坐享比第一次的顺利,因为今天起的早了五分钟。享受了一丝安宁。 中间进行的并没那么容易,还是...
    侧耳倾听0114阅读 89评论 0 0
  • 难在坚持,贵在坚持,成在坚持,耳熟能详一句口号。一个难字也不过隐约道出了百味的心酸,惟有经历过的人才真正懂得其中的...
    方明晞阅读 166评论 1 1