算法笔记一:梯度下降线性回归与分类

算法构成

目前算法模型主要解决回归、分类、聚类问题。也可以通过训练数据集中有无标签分为,有监督学习和无监督学习。下面主要探讨下回归问题的一般数据表达。

【1】假设函数,即通过数学公式标准化模拟的参数与目标间的函数关系,可以理解为函数关系中的H(X)。

【2】参数,即认为会影响到目标的变量。可以理解为函数关系中的X。

【3】代价函数,即通过在相同参数下“假设函数”与“真实值”之间的差距计算得到。代价函数最小时,则拟合效果最好,但是存在过拟合问题。就是在训练集中能完全预测,但是在真实情况下预测失误率高。同时“假设函数”关系也是通过逐步缩小与代价函数的值,能逐步训练算法的。(也可以理解为求偏导,逐步梯度下降)。

【4】目标,回归问题中一般表现为缩短相同参数情况下,假设函数预测值与真实值之间的差。

图1 数学描述目标


算法目标

线性回归中,假设函数H(X)中X为变量,有真实世界中可以获取,所以只能通过改变H(X)中的参数来优化预测情况。如下图所示,简化为与两个变量相关的函数H(x)=\theta 1x+\theta 2,通过不断改变\theta 1\theta 2的值实现真实值与目标值之间的差值最小,即J(\theta 1,\theta 2)最小。


图2:目标函数可视化


将上述的图片转化为下面的等高图,可以发现必然存在\theta 1\theta 2使目标函数有最小值。那么到底何时能使预测值和真实值最接近呢?

图3:目标函数等高图

梯度下降

在分析问题时,定义了目标函数、假设函数后,一定会给假设函数中参数\theta 1\theta 2确定一个初始值,也即图上任意一点。我们期望改变初始值\theta 1\theta 2,能前往途中的最低值的方法,类似下山的感觉,就是梯度下降,数学意义上就是导数或者偏导数。

图4:梯度下降可视化
图5:梯度下降的数学含义

上图4是一个非常理想情况的函数图像。对于比较复杂的函数,如图6所示,可能有一个全局最优解,多个局部最优解。而且参数初始值、参数学习效率改变的情况下,很可能只能取到局部最优解,而不是全局最优解。

图6:回归问题非理想情况图示


学习效率与梯度下降

学习效率的值,如果值定的太小,学习次数会增加,算法时长会上升;如果学习效率定的太大可能永远无法学习到最优解。学习效率取值可以参考,在拟合初期定个较大的值,但是在拟合后期差距逐渐减小时,学习效率也逐步降低。

图7:学习效率与梯度下降


图8:偏导数推导
图9:线性回归取到最佳拟合点

图像分类

图像分类问题,有较大的应用前景。比如内容的审核,疾病治疗,人脸识别等。本文将讲述较为简单的图像分类方法,K近邻与线性分类。

K近邻

数据有训练数据集和预测验证数据集,我们定义预测图片在训练集中取到的最近N张图片,取出占比最大的标签,即预测出图像的标签。这是一种仅仅只是记录数据就预测的方法。

图1:左侧为训练集,右侧为预测集

定义图像间距离

图像的分辨率,是指一个图片由多少个小方格组成的,分辨率越大,小方格越多,图片质量越好。

RGB,即一个小方格上的色彩,范围越大,表示每个小方格能取到的色彩越多。一般用uint8和unit16,表示的是单个像素的信息。uint8白色和黑色写成16进制是【白:0xFFFFFFFF】【黑:0xFF000000】。其他颜色举例,如【红色:0xFFFF0000】【绿色:0xFF00FF00】取值都在0-255之间。

定义图像间的距离,既然每一张图片由多个像素点构成。那么可以考虑所有像素点间的绝对值,相加即两张图片间的距离。

这种算法最大的问题时,训练时算法的复杂度为O(1),但是预测时算法的复杂度为O(n)

图2:图像间距离举例


K值会影响分类结果,K值越大分类越平滑。

图3:K值在K近邻中影响


L1距离就是刚才说的,每个像素点间绝对值的和;而L2距离则是距离开平方。参数间有区别,需要选择L1,对距离有影响;参数间没啥区别选择L2,对距离无影响。

图4:L1和L2距离不使用K近邻原因


图5:K近邻认为上图距离相同


图6:K近邻预测维问题耗时长


线性分类

参考之前的线性回归预测,线性分类的数学意义就是通过多个参数,通过线性分类器将图片分类,以下图片是二维解释,当参数更多时,可以拓展到更高维的解释。

图7:线性分类图片


线性分类是,将图片看成一维数组。每个标签有属于自己的函数表达式,然后计算出最高得分的标签,即预测的标签。

图8:线性分类数学解释


图9:多个分类器预测一张图片取最大值


线性分类的问题

线性分类无法处理,标签间相互混合的情况,如下图所示。所以就有后续的神经网络算法。

图10:线性分类存在的问题
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352

推荐阅读更多精彩内容