针对不同任务如何挑选机器学习模型

其实这个题目其实早就想探讨一下了,因为工作有时候会在这件事情上花费很多时间。这两天坐着思考了一下,这个问题其实应该分几个维度来讨论。
当然,这里只讨论工业界。

区分目的

首先需要明白,你是要做什么,是要快速落地,还是提升模型效果,还是讲故事,还是做算法可行性研究,都有不同的套路,以及工作中各种形形色色的约束。

讲故事--PPT型

工作中,总要给客户或者领导讲各种的故事,做个看起来fantastic的ppt,以前还没工作多久的时候,对这种事情嗤之以鼻,现在啊,赚钱嘛,不丢人
因为现在不像以前,故事不是带有AI,听众就使劲鼓掌,让人信服。时代变了,还是得拿点东西出来给别人看的。如何讲一个好的技术性故事,根据我的经验,一定要在吹牛逼和实用性和普及性中间平衡。
举个例子,NLP相关的任务,你给别人讲故事,不要一开始就把rf,word2vec就掏出来,你得讲Transformer,elmo和BERT,但是你又不能讲GPT-2和ERNIE2这种最新模型。
不是因为GPT-2和ERNIE2不好用,甚至ERNIE2对于中文的效果是非常好的,而是说这两个模型对于专门做NLP的人熟悉且好用,而Bert这个名字流传度更广,业界出的成果更多,开发起来更便捷(github上的各类demo源码更多,便于落地),但是相对于word2vec这种老古董更先进。
综合这样,东西可以落地,效果也查不到哪里去,又是业界较新生产力,这个故事还是可以给你别人的。当然,只能是给别人看看,真正落地又是另一件事。

预研--研究型

工作里面,算法可能遇到瓶颈了,可能是性能太差,不满足生产,可能是准确性上不去,效果不好,就需要搞研究工作了。
研究工作模型是一个纵向的,不能一味的把模型往深了做,而是不同深度各出一个结果。
举个例子,现在我的工作是一个时间序列预测的工作,数据充足,特征管够,不缺人力,算力拉满(多么理想的工作环境),一开始是接到任务,首先深度学习整起来,简单的CNN和LSTM来一套,往深了搞,也训练出来了比较好的效果。嗯,我很满意。但是这个工作是与硬件相关的,硬件上给分配了30M的内存,深度学习的模型都加载不了。好的,前期工作白费。
换模型降维,普通的网络搞一下,xgboost和adaboost,其实都可以做,但是这个时候还不够,我们最后选择了的模型是用信号频率分解+线性拟合。
为什么这么选,网络和xgboost的效果还可以,但是效率低,当实时数据量非常大的时候,还是有点慢的,adaboost(回归树)效率可以,但是效果又不好,最后我们选择了一个比较简单的模型。
所以,搞模型预研,一定要做成一个纵向,不能一直往深了做,也要回头看看,也许有更好的选择。合适才是最好的模型。

实干--落地型

模型要落地,重点应该关注在生产中的约束条件。

  • 监督和非监督,考虑人手够不够,训练需要投入的成本,优先选择监督。
  • 深度学习和机器学习,考虑算力和效率,算力充足,性能要求不高,优先选深度学习。
  • 深度学习新模型和旧模型,不要选最新模型,选最流行的模型,因为最新模型是学术界做的demo,面对SOTA做模型。就算效果好也要等网上资料足够多了(github上的开源demo足够多)再考虑换模型。
  • 选择机器学习模型,考虑任务。如果分类,优先考虑随机森林,xgboost和SVM,SVM性能最好,随机森林最平衡,xgboost效果最好。如果回归,线性拟合,SVM,xgboost都可以用。

一点感悟

训练了这么多模型,其实最后发现,有些模型,在数据较好的情况下,效果差不太多,准确率就是那几个点的事情,不超过5个点,特别是深度学习。所以不要觉得换了一个模型就可以大幅度提升把数据选好才是最大的提升空间。
而实际情况是,一个模型或者几个模型并不能解决业务的问题,需要一套组合拳。最常见做法是,先做预处理,排除最明显的,再跑模型(组合模型),最后做后处理,这才是效果最好的。


今天就到这,有什么问题欢迎交流。mail: chinwu@126.com

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,372评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,368评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,415评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,157评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,171评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,125评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,028评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,887评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,310评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,533评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,690评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,411评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,004评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,812评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,693评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,577评论 2 353

推荐阅读更多精彩内容

  • 偏差与方差:https://www.cnblogs.com/daguankele/p/6561419.html 对...
    阡陌哥哥阅读 4,195评论 0 4
  • LR和SVM的区别 相同点:1、都是监督、分类算法,且一般处理二分类问题2、两个方法都可以增加不同的正则化项,如l...
    账号已删除阅读 2,779评论 1 8
  • 关于减肥 从上个月开始,制作了一个体重监测表,把每天的体重记录上去,以曲线的形式呈现出来。效果十分明显。俺是说涨幅...
    小错2018阅读 145评论 0 0
  • 今天跟儿子去看了场电影。 平时坐不住的儿子,今天看电影目不转睛。不错,你肯定猜到了《流浪的地球》。刚开始的时候还偶...
    猫爪能量绘画阅读 83评论 1 2
  • 时间:2019年4月22日 上周完成度 1.三个PPT方案 2.帮朋友修改一个PPT 3.拍摄项目:两天 4.出差...
    宇枫Sai阅读 271评论 2 1