机器学习杂谈―回归

机器学习是一门作预测的方法论和工具。预测,为什么?机器学习和人的学习一样,从经验中学习,在历史发生的数据中抽取出数据中存在的模式,因此机器学习是更接地气的,和学科结合密切的,不同的数据分布适合于不同的算法。所以,机器学习的算法不存在绝对的谁好谁坏,我们只能得到在当前数据集上比较好的算法,比较好的是什么意思?就是泛化能力相对较好的算法,即,用算法去预测未知数据的能力。当然这也是没办法直接去预测的,我如果知道了哪个算法泛化能力好,不是就说明我有预知能力嘛?事实上,我们是将经验数据分成了两部分,一部分用来训练学习算法,也就是用来发现数据的规律,另一部分是用来检验学习效果的。好,既然我们可以用来检验效果,那么这部分数据就一定是有答案的,我们用预测的结果和实际的结果比较,判断哪个算法学习到的知识准确,也就是测试误差小。用测试误差来近似泛化能力。好,那么分割训练集、测试集也是个麻烦事。本来我们用来学习的样本就不多,你还要拿一部分出来,那我在整个数据上学习的效果肯定和在子集上学习的效果有差距,如何尽量去避免这种问题呢。当前分割的方法主要有三种,第一:留一法,把数据分为两个子集,且没有交集,当然要保证采样的时候尽量不破坏数据本身的分布。什么意思呢,假如我要学习的模型是分类妹子和汉子(1表示妹子,0表示汉子)数据集的标记y有70个样本是1,30个是0。我们采样时候,把前70个都放到训练集去了,那肯定会出事呀,给的数据都是妹子的描述,学习器就认为所有的人都是妹子,在测试集一跑,哎呦妈呀,都预测错了,还不如随机猜测呢,起码有一半的正确率。那这个学习器出什么问题了,首先是样本没选好,在训练集中要差不多选70*0.7=49个妹子,21个汉子的样本,这样才能学到两者的内在模式,其次,学习器过拟合了,也就是说学习太好了,把训练集带的偏差也学到了,而这些偏差在其他样本中是没有的。那么这样的学习器泛化能力也不好。那学习器就郁闷了,你又要我学习的好,又要我不能学的太好,把随机噪声也学到。这又是一个折中,真的不好衡量。那我们咋解决呢,我们就看学习器在测试集上的表现。我们期望的是这样的学习器:在训练数据上误差很小,在测试集上误差也要接近训练误差,不能相差太远。闲话稍后在扯,继续数据集分割的讨论。第二种分割方法,k-折交叉验证,首先把样本几乎均匀的分成k份,编号依次是1,2,3...k我们依次的拿出一份做测试集,其余的k-1份数据做训练集,训练k个学习器,然后从里面选一个最好的,这种方法的优点是效果比上面说的留出法好,缺点嘛,训练了这么多学习器,成本也是蛮高的。所以,no free lunch,出来混,总是要还的,这就像算法里永恒的主题:空间和时间的协调。具体的折中策略,要根据场景去考虑,具体问题具体分析。第三种,booststraping。这种采样也是挺有趣的,有放回的采样,可是可是,统计里面的有放回是样本很多的情况,我们取很少几个。在机器学习里面,我们有m个样本,但是要采样的个数也是m,那这就会存在一些样本反复被抽中,一些样本从来没有被抽中,那这样的方法靠谱嘛?我的心也微微一颤,我们先来统计分析下,一共采样了m个,每个样本在每次采样中被抽中的概率都是1/m,那么没抽中的机会就是1-1/m,如果在m次采样都没被选中,概率是(1-1/m)^m,当m接近无穷大,上面的值大约是33.3%,大概1/3,还是挺多的哦,如果只做一次学习,如果样本比较多,不建议用这种方法。这种方法将在随机森林算法里大放异彩,这个概率也是很有用的,先立个flag。

然后机器学习和人学习一样嘛。机器学习算法有一大类问题是监督学习,也就是给的数据是带学习结果的,那好嘛,我先学,然后去和答案比较,差距太大,我就继续去学习呗。我学呀学,靠,不知道过了多久,我觉得学的效果挺好了,和答案相差不多了。那我总得评估我的效果吧,打个分吧。可是要怎么打分,头疼,这还不是得我们人来考虑。打分得前提首先得定个标准吧,就是得给个学习的具体目标吧,我一点点去靠近她,先放弃全局最优解,然后才能去接近最优。好,我们想,监督学习有两种,分类和回归。分类今天先不表。今天简单说下回归。回归就是给了一堆的特征,然后让你去预测一个数值,那么我们的优化目标可sigma|y-f(x)|嘛,去最小化这个,在高中就学过,如果一个大于目标a,一个小于目标a,两个就抵消了,但是,他们都是误差有偏差的,所以这个不靠谱,那么我们就平方吧,这个好,这个准则也确实挺管用,还有个专业名(mse),事实上,这个准则可以通过假定误差(y-f(x))服从高斯分布得到,而我们知道,高斯分布假设是合理的。于是我们的第一个模型,线性回归就呼之欲出了,线性是说特征的参数theta是线性的,不存在交叉项,特征之间是可以交叉的,在优化函数里加上l1范式,就得到了LASSO回归,l1范式可以保持特征的稀疏性,因此可以用于特征的选择,在优化目标里加上l2范数,就得到了Ridge回归,如果是l1,l2的组合,就叫做弹性网。好,继续,如果我们假定误差之间不是均等的,也就是考虑不同的误差给不同的权重,就得到了局部加权回归,权重可以采用rbf,又是高斯核。再次膜拜大神。如果是另一种假设,预测值和实际的差别在€之间,我们认为不存在误差,也就是只有在这两条隔离带之外的才计入损伤。那么,我们就得到了svr支持向量回归。哇,一下好多算法,蒙了。我们来整理下。

总结:回归有以下几种算法,基本的线性回归、lasso、ridge、弹性网、局部加权回归、svr,局部加权可以用先验知识。这六种算法。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,616评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,020评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,078评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,040评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,154评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,265评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,298评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,072评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,491评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,795评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,970评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,654评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,272评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,985评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,815评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,852评论 2 351

推荐阅读更多精彩内容