Regression Tree (VS Linear Regression)

Regression Tree 模型相比 Linear Regression 模型有何优势呢?

Linear Regression 是最经典的回归模型,可用下式表示:

Y = β_0 + β^T X + ε

然而 Linear Regression 的假设很强,即各特征(X_1,X_2,\dots)是独立的,而实际中各特征是相互影响的,我们可以通过加入高次项来考虑这些特征间的相互作用,如:

Y = β_0 + β^T X + γXX^T + ε

可以看到,即使只考虑特征俩俩之间的交互,模型参数的数量都会随特征数量的增加而快速增加,这将大大增加模型训练的难度。

归根结底,Linear Regression 无法很好的处理特征之间的相互影响的原因在于它是一个全局模型(global model),用一个单一的预测公式适用于整个数据空间。当数据具有许多以复杂的、非线性的方式交互的特性时,建立一个单一的全局模型可能会非常困难。

一种处理非线性回归的方法是将特征空间细分或划分为更小的区域,在这些区域中,特征间的相互作用更易于管理。然后我们再次划分这些子分区——这称为递归分区——直到最后我们得到一系列小的空间块,这些块中的样本可以用简单模型拟合。因此,我们的算法分为两部分:一部分是递归分区,另一部分是建立各分区中的简单模型

Prediction Tree 使用树来表示递归分区。树的每个终端节点或叶节点表示分区的一个单元,并附加一个简单的模型,该模型仅适用于该单元。如果x落在分区的相应单元中,则点x属于叶结点。为了确定我们在哪个单元中,我们从树的根节点开始,并询问一系列关于特征的问题。

经典的 Regression Tree 算法中,每个单元中的模型只是一个常数估计,即属于当前单元(结点)的样本的y的均值。因此这相当于一个分段常数模型。这样做有几个好处:

  • 预测很快(不需要复杂的计算,只需查找树中的常数即可)
  • 很容易理解哪些特征在进行预测时很重要
  • 如果一些数据丢失了,我们可能无法一直向下到达树的叶子,但我们仍然可以通过平均我们已到达结点的子树中的所有叶子来进行预测
  • 模型给出了一个锯齿状的响应,所以它可以在真实的回归曲面不光滑时仍能较好拟合。如果真实模型是光滑的,则分段常数曲面可以任意接近它(只要有足够的叶节点)
  • 有快速、可靠的算法来学习这些树

Regression Tree 运行后产生的结果大致长这样:

可以看到,一旦分区确定,各分区上的模型也就确定了(只是简单取平均),因此关键的部分在于如何建立一棵树来产生好的分区。

关于如何建树,我们可以定义损失函数为平方损失:

S=\sum_{c \in \text { leaves }(T)} \sum_{i \in C}\left(y_{i}-m_{c}\right)^{2}

其中m_c=\frac{1}{n_c}\sum_{i\in C}y_i

然后按如下步骤建树:

(1)从包含所有点的单个节点开始。计算m_cS
(2)如果结点中的所有样本的y都相等,则停止。否则,在所有特征的二分中搜索一个能尽可能减少S的。如果最大的减少量小于某个阈值δ,或产生的结点将包含一个小于q个样本点,停止。否则,使用该拆分,创建两个新节点。
(3)在每个新结点中,重复上述步骤。

这个简单算法的一个问题是,它可能过早地停止。有些变量本身并不能提供很多信息,但却导致了信息丰富的后续拆分

寻找回归树的一个更成功的方法是使用交叉验证思想。我们将数据随机分为一个训练集和一个验证集,然后我们将基本树算法应用于训练集,并设定q = 1δ=0——也就是说,我们生成最大的树。这通常会导致过拟合。然后我们使用交叉验证来剪枝。在每一对具有共同父节点的叶节点上,我们对验证集的误差进行评估,看看去除这两个节点并使它们的父节点成为叶节点是否会使平方损失更小。重复此操作,直到剪枝不再改善验证集上的表现。

Reference:
CMU Data Mining

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,928评论 6 509
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,748评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,282评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,065评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,101评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,855评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,521评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,414评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,931评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,053评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,191评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,873评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,529评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,074评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,188评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,491评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,173评论 2 357