实用 Kaggle 竞赛之 随机森林 Random Forrest 的评估及调参

“本文内容的诉求为实用、易上手,所以理论的内容以及公式只做少量的解释,并不着重涉及。“

本节内容:

1。评价函数 —— 如何评价模型的好坏

2。测试集、验证集、训练集 —— 防止过拟合的验证集

3。RF 的超参数设置 —— 如何 tune 模型

           - 一颗决策树的形成 n_estimators

           - 随机森林 bootstrapping

           - 数据量太小怎么办 oob_score

           - max_samples_leaf, max_features

上一节我们是讲了 RF 的使用条件及优劣,这一节就继续来讲讲如何使用 RF,尤其是在 Kaggle 建模,或者是其他的生产环境中。

Notes:这里记录一个 data scientist 的好习惯

1。在使用 notebook 的时候,建议先在 cell 中书写函数 function,测试通过后,将 function 写上 notes 之后搬到 .py 文件当中,在 cell 中通过 import 来导入。在后期的 .py 文件中,可以遵循 PEP8 格式进行程序书写,以满足多人合作的工程或学术研究的需求。

2。在模型中,也是首先提取 dataset 中的一部分,来先跑同测试,记录效果好的模型和参数,在晚上让电脑跑整个数据集来获得针对全模型的估计。

3。在数据读入以后(如 pandas.read_csv() ),

在上述 notes2 中,“哪个模型效果好“ 就成了很重要的问题,回答这个问题的就是评价函数 evaluation metrics。

1。评价函数 —— 如何评价模型的好坏

由于这里主要讨论一些实用的方法,因此我们主要来回答 sklearn 里面 RandomForrestRegression 对象函数生成后,自带的 score 是什么。其实 sklearn 每个 Regression 模型对象都会带这个 score 函数。

Regression 模型中的 score 函数指的是 R^2

我们先假设有一个 naive 模型,仅仅计算 y 的均值作为我们需要预测的 y。

那我们的模型与这个 naive 模型相比,是否提高了精度。

提高了越多,值越接近 1 。

可以来看一下公式,R^2  = 1 - \frac{SS_{res} }{SS_{avg}} ,SS 此处表示 RMSE 为 (x_{m} -x_{n} )^2,这个的 x_{n} 可以是模型均值也可以是模型的预测值,两者相除表示当前模型比均值的 naive 模型优化的程度,因此优化的越好,score 越接近 1 。

m = RandomForestRegressor(n_jobs=-1)

m.fit(X_train, y_train)

m.score(X_valid, y_valid)

当然除了这个模型自带的 score 以外,我们也是需要查看 Kaggle 自己需要的模型验证函数的确保我们的成绩在 leaderboard 上排名好。这个部分,Sklearn 提供了 metrics module 来计算各种评价指标,详见 sklearn metrics


2。测试集、验证集、训练集 —— 防止过拟合的验证集

既然有了评价指标,那我们就能从模型数据里面看到过拟合问题。


一般我们把数据集分为训练集、验证集和测试集三个部分,测试集是完全不相关的数据,绝对绝对不会在训练模型时使用。在 Kaggle 中,这部分 test 数据就是 public leaderboard 以及 private leaderboard 里面给你排名的数据,你是不可能接触到的。在真实的工程环境中,这部分数据就是投入使用之后的真实模型效果,比如市场对于明日股票走势的预测等。

然后,在模型训练中,会使用到的就是 训练集和验证集,注意到我在验证集和训练集之间画了虚线,因为这个分割是可以重新绘制的,在每个模型,甚至单个模型里面都可以重新组合这个分割(比如 k-fold),但是单次训练里面,两者的数据是不重叠的,上面的示意图里面展示了不同的分割方法的数据情况。

训练集用于 fit 模型,而验证集就用来直接验证该模型的有效性,减少过拟合的影响。

小技巧:

如果你需要训练的是时间序列模型,则可以针对训练集和验证集进行时间排序后的分割。

def split_vals(a,n): 

      return a[:n].copy(), a[n:].copy()

这样你就可以用训练集和验证集来真实模拟时间序列上的预测“未来”,而不因为 random_split 的方法,由于引入未来函数的原因来导致了模型估计误差。

3。RF 的超参数设置 —— 如何 tune 模型

RF 是随机森林,为了理解超参数,我们先取森林里面的一棵树。

a。一棵决策树

m = RandomForestRegressor(n_estimators=1, max_depth=3, bootstrap=False, n_jobs=-1)

m.fit(X_train, y_train)

m.score(y_test, m.predict(y_test))

在这里,n_estimators 是树的棵树,max_depth 是树的深度,bootstrap 是是否需要重采样,n_jobs 是你需要的 CPU 个数。


一棵树的简单示意图,圈中是 con(short for condition),连接处是 T(True),F(False)

决策数的本质就是找到所有参数中一个参数里面最容易区分数据的分割点,将数据集切分成在这个分割点的左右两个区域,符合(大于)该切割点,或者不符合(小于)该切割点。

max_depth 就是这个树的深度,决定了能够决策的条件树,默认就是分割到每个子结点仅省一个数据,这样就是最精确的,所以决策树的问题往往就是过拟合、范化能力差。

为了解决这个问题,就需要引入 bagging。

b。bagging 集合树,即森林

m = RandomForestRegressor(n_jobs=-1)

m.fit(X_train, y_train)

m.score(y_test, m.predict(y_test))

在 RF 里面,RandomForrestRegressor 的默认 n_estimators 是 10,也就是 10 棵树。

“随机森林假设基于一个理论,多个独立不相关模型都各自获取了数据本身的特征,因此他们的特征是有意义的,但是他们的误差是随机的。当他们叠加的时候,这些特征就变得明显,而误差则由于是随机的,因此被抵消了!”

这个理论在数学上是可以被证明的,超级超级经典,这也是“随机“的由来。具体的实现方式,就是每棵树都随机获得数据集中的一个子集(这个子集是可以 bootstrapping 来重复抽取相同数据的),来得到关于这个子集的特征。预测的时候,把每个都模型的预测都线性相加,就能得到比较好的预测结果。这是简单的数学模拟,但是在工业应用中得到了非常好的效果!简直就是天才的发明。

c。out-of-bagging score - 数据集过小不能留出验证集怎么办?

在 b 的随机森林中,你会发现一个构建树的方式是使用数据的不同子集来得到不同的数据特征,那么每个树自然而然就不会用到全部的数据集,因此我们这里就可以自然的使用这些没有用到训练的子集来得到评价score,非常聪明的办法哦!

他的参数设置就是,oob_score 。

m = RandomForestRegressor(n_estimators=40, n_jobs=-1, oob_score=True)

m.fit(X_train, y_train)

d。更多超参数 - min_sample、max_feature

m = RandomForestRegressor(n_estimators=40, min_samples_leaf=3, max_features=0.5, n_jobs=-1, oob_score=True)

m.fit(X_train, y_train)

min_samples_leaf 也是常用的超参数,代表了最小每个子叶子需要包含几个数据点,也是常用的限制参数,往往设置 1、3、5、15、25 等奇数。

另一个有效的参数是 max_feature,这个参数是对决策树中条件的设置,因为我们担心如果某个特征过于明显,那么每个决策树就都会使用这个特征,那每个决策树就会变得趋同,而无法更好的获得不相关的关系评估,因此 max_feature 这个参数就会每次随机在所有的特征中选取 50% 来考察其中的关系。你可以理解为,每棵树随机选择了数据集的不同行来训练,而这个 max_feature 随机选择不同的列来训练。

其他的推荐参数也包含了 1, 0.5, log2,或者 sqrt,可以参阅文档 sklearn 文档

最后的建议:尽量在小的subset上进行条参,尽可能尝试更多的模型,随后在全数据上进行训练来获得完整的模型!加油!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,864评论 6 494
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,175评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,401评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,170评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,276评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,364评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,401评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,179评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,604评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,902评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,070评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,751评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,380评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,077评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,312评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,924评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,957评论 2 351

推荐阅读更多精彩内容