17、如何提高机器学习效果

拥有一个或两个在问题上表现相当好的算法是一个良好的开端,但有时您可能会受到激励以获得最佳结果,您可以获得可用的时间和资源。

在这篇文章中,您将了解可用于挤出额外性能的方法,并改进从机器学习算法中获得的结果。

调整算法时,您必须对测试工具给出的结果有很高的信心。这意味着您应该使用减少用于评估算法运行的性能度量方差的技术。我建议使用相当多的折叠进行交叉验证(确切的数量取决于您的数据集)。

image.png

Tuning Fork
Photo归功于eurok,保留了一些权利

您将在本文中了解的三个策略是:

  • 算法调整
  • 合奏
  • 极限特征工程

算法调整

开始的地方是从您已经知道的对您的问题表现良好的算法中获得更好的结果。您可以通过探索和微调这些算法的配置来实现此目的。

机器学习算法被参数化,并且那些参数的修改可以影响学习过程的结果。将每个算法参数视为图形上的维度,其中给定参数的值作为沿轴的点。三个参数将是算法的可能配置的立方体,并且n参数将是算法的可能配置的n维超立方体。

算法调整的目的是为您的问题找到超立方体中的最佳点。您将针对您的测试工具进行优化,因此您再也不能低估花时间构建可信测试工具的重要性。

您可以通过使用自动化方法来处理此搜索问题,该方法在可能性空间和可能具有良好算法配置的示例上强加网格。然后,您可以在优化算法中使用这些点来放大最佳性能。

您可以使用一些表现良好的方法重复此过程,并探索每种方法可以实现的最佳效果。我强烈建议该过程是自动化的并且合理粗糙,因为您可以快速达到可能无法转化为生产系统的收益递减点(性能百分比增加)。

算法参数调整得越多,算法对训练数据和测试工具的偏差就越大。这种策略可能是有效的,但它也可能导致更脆弱的模型过度使用你的测试工具并且在实践中表现不佳。

合奏

集合方法涉及组合多种方法的结果以获得改进的结果。当你有多个“足够好”的模型专门研究问题的不同部分时,集合方法很有效。

这可以通过许多方式实现。您可以探索的三种合奏策略是:

  • Bagging:更正式地称为Bootstrapped Aggregation,其中相同的算法通过在训练数据的不同子集上进行训练而对问题有不同的观点。
  • 提升:对相同的训练数据训练不同的算法。
  • 混合:更正式地称为Stacked Aggregation或Stacking是各种模型,其预测被作为新模型的输入,学习如何将预测组合成整体预测。

在用尽更多传统方法之后进入合奏方法是个好主意。这有两个很好的理由,它们通常比传统方法更复杂,传统方法为您提供了良好的基础水平,您可以从中提高和绘制来创建您的合奏。

合奏学习

Ensemble Learning
Photo归功于ancasta1901,保留一些权利

极限特征工程

前两个策略考虑了从机器学习算法中获得更多。这个策略是为了让学习算法的问题暴露出更多的结构。在数据准备中学习了有关特征分解和聚合的知识,以便更好地规范机器学习算法的数据。在这个策略中,我们将这个想法推向极限。我把这种策略称为极端特征工程,当真正的“特征工程”这个术语就足够了。

将您的数据视为嵌入其中的复杂多维结构,机器学习算法知道如何查找和利用以做出决策。您希望最好地将这些结构暴露给算法,以便算法可以做到最好。一个难点是这些结构中的一些可能太密集或太复杂而无法在没有帮助的情况下找到算法。您可能也从您的领域专业知识中了解此类结构。

获取属性并将它们广泛分解为多个功能。从技术上讲,您使用此策略所做的是将依赖关系和非线性关系简化为更简单的独立线性关系。

这可能是一个外国的想法,所以这里有三个例子:

  • 分类:您有一个具有值[红色,绿色蓝色]的分类属性,您可以将其拆分为红色,绿色和蓝色的3个二进制属性,并为每个实例分别赋予1或0值。
  • 真实:您有一个实数值,其值介于0到1000之间。您可以创建10个二进制属性,每个属性表示一个值的bin(bin 1为0-99,bin 2为100-199等)并分配每个实例为二进制文件的二进制值(1/0)。

我建议一步一步地执行此过程,并为每个修改创建一个新的测试/训练数据集,然后在数据集上测试算法。这将开始让您直观了解数据库中的属性和功能,这些属性和功能会向算法公开更多或更少的信息以及对性能度量的影响。您可以使用这些结果来指导进一步的极端分解或聚合。

摘要

在这篇文章中,您了解了三种策略,可以从您的问题中获得机器学习算法的改进结果:

  • 算法调整通过模型参数空间将发现最佳模型的方式视为搜索问题。
  • 组合多个模型所做预测的集合。
  • 极限特征工程,其中数据准备中看到的属性分解和聚合被推到极限。

资源

如果您希望深入了解此主题,请查看以下资源。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,287评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,346评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,277评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,132评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,147评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,106评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,019评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,862评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,301评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,521评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,682评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,405评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,996评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,651评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,803评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,674评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,563评论 2 352

推荐阅读更多精彩内容