机器学习model构建

机器学习一般就是三个步骤：数据预处理，构建model，model优化

常见的机器学习问题分为两类：回归问题，分类问题。

回归问题又分为Linear regression和Logistic regression，在建模时首先一定要分析清楚是什么类型的问题，千万不要把PLA问题和logistic regression问题弄错。

台湾大学林轩田教授讲解的PLA和逻辑斯蒂回归问题让人很容易理解，不懂的可以去看。

简单来说，分类问题是将原有的数据以源数据为目标分为不同的种类，但是logistic regression是将数据回归到目标类值上，就像下面两张图

PLA

逻辑斯蒂回归

分类问题大多用KNN算法进行求解，也就是K临近算法，也就是看目标值的临近值最多属于哪个类别，该目标值就是那一类，KNN算法关键在于设置K值，K值不同得到的结果也会不同。

下面着重聊聊回归问题：

regression问题顾名思义，回归问题，比较有难度的一种问题了吧，在做的时候重点在于数据预处理这方面，要注意特征向量如果是固定的几个值，需要对数据进行离散化，也就是人常说的onehotencoding，如果是散乱分布的数据，注意观察数据是在一定的范围内，比如数据都在10-20，突然出现一个100，这时候需要对数据进行收缩，目的是对这个数据做惩罚，避免这一个数据使model造成过拟合的情况，甚至做出来的model不回归。

对于缺失数据，如果数据量很大，缺失数据很少，那么这部分loss可以忽略。如果数据缺失在非常重要的特征向量中而且缺失很多，那么建议联系DBA找回来，实在找不回来的话，也不建议用其他值代替，因为填入的值很有可能成为noise添加进模型中。建议将数据分为两部分，NULL和NOT NULL，分别处理之后组合起来，也会很完美。

刚开始建模的时候，接触的model无非就是decision tree了，后来可能就接触到了randomforest，这俩东西确实无敌，如何选取呢？

可能大家都认为randomforest的决策效果要比decision tree强很多，其实没有那么绝对，如果特征向量很少的话，那么还是建议使用decision tree，特征向量多的话，可以使用randomforest，当然也要适当调整tree的数量，以及每棵tree的深度，等等。

在无敌的randomforest面前很少用人能想到直接使用linear regression或者logistic regression进行model的构建，这两个regression在后期优化的时候相对于randomforest要容易很多，因为优化randomforest不仅需要考虑数据的优化处理，还要考虑如何处理forest中的每棵树，这两个regression在优化的时候会容易很多，将模型需要的固定的参数设置好之后，只需要考虑数据的优化就ok，所以一般情况下，如果问题很明显能看出来是哪类问题，建议还是不要使用forest了，直接使用regression，岂不快哉？

如果可以的话，也可以使用神经网络进行建模，神经网络是深度学习的基础，构建完神经网络，需要使用反传播算法进行优化，原理是从输出层开始往前逐步将该激活神经元的输出输入值通过该神经元计算后，计算该边的权重是否合适，之后对该边进行调整，注意反传播算法的传播迭代的次数，以及学习速率，还有weighted，迭代效果随迭代次数的增加而减小，学习速率和weighted不建议弄太大，越细小越稳，同时要求迭代次数越多。

构建model的时候最大的问题莫过于参数的设置，可以使用gridsearchcv将你所想的参数做成dict，然后传入CV，让cv自动寻找最佳参数组合，切记使用cv的时候，不要一次性把所有的参数作进去，先设置一个大概范围，看cv的结果，之后在每个参数的大范围中缩小范围，逐步找到最优参数组合，当然如果你的电脑可以的话，你可以一下子全部设置进去。

构建model的时候可以不要一下子把所有的特征值填进model中，先选取一部分重要的特征值，之后在逐步优化的时候将剩余数据一点一点添加进去。这样做的好处是避免优化数据的时候不知从何下手，哪些数据应该怎么处理，怎么结合分不清楚。

最后编辑于：2018.02.05 23:27:25

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,919评论 6赞 502
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,567评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,316评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,294评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,318评论 6赞 390
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,245评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,120评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,964评论 0赞 275
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,376评论 1赞 313
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,592评论 2赞 333
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,764评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,460评论 5赞 344
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,070评论 3赞 327
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,697评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,846评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,819评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,665评论 2赞 354

机器学习model构建

推荐阅读更多精彩内容