登录注册写文章

连续值特征的离散化

连续值特征的离散化

背景

LR模型中，更偏向于对离散化特征进行训练，对于连续值特征，更多的情况下是将连续值特征离散化，再加入模型进行训练，原因如下：

计算快，因为离散值向量会造就稀疏特征，最终导致稀疏向量的乘法运算，运算速度优于连续值的稠密向量乘法
迭代快（？待理解），离散特征的增减相对容易，易于模型的迭代升级
鲁棒性好，对异常值的敏感度没有直接用连续值来得严重，若是在一个划分区域内异常，离散化之后相当于没影响
更稳定，连续特征在变化时，对应的离散特征变化小甚至没有
增加了非线性，主要体现在两方面 1. 一个特征51，你离散化之后，变为0001，那么在lr模型中，每一位都有单独的权重，0001就可能有不同的权重，增加了非线性，2. 离散化后可以进行特征交叉，增加了非线性（？）
简化模型，与其让模型学习所有样本的连续值特征，不如让模型学习离散化后的有限的离散特征，降低了过拟合的风险（？）

方法

无监督型（没有一个评估指标说这个分类方法的好坏）

等宽划分：指定n，按照等间隔的方法把连续特征map进间隔中
问题 - 对异常值敏感，某些异常值会导致划分区域发生变化，而使得间隔变大，分布不均。比如正常数据30到60，你原本只需要在30-60之间进行5份分隔，现在有个异常值300，你若是在30-300之间5份分隔，那么后面的间隔基本没样本，不合理。
解决 - 根据样本选择合适的阀值，排除阀值外的异常值
等频划分：将样本分成n等份，每份数据个数一致。

image.png

age_bin_1是等频； age_bin_2是等间
直观法：经验

有监督型

（卡方检验，信息增益）

1R（？）
卡方检验
-- 超级像图像领域的segmentation
分裂：找一个值T，分成两个区间，看两个区间下，这个目标值的分布是否有明显差异，有差异且高于一个阀值，就分裂。这个T点可以是差异最明显的点。然后一直这样知道划分到不满足阀值的时候。
合并：挨着看临近的点，如果差异不大就合并，合并到临近点的差异足够明显，不能够合并
（受图像的segmentation启发，其实可以先分裂再合并）
信息增益
就是类似决策树的信息增益的特征选择一样，在分裂点看分裂前后的信息增益，最后找到最大的点划分。
合并就是当增益小于某个阀值就合并。

最后编辑于：2019.03.18 17:40:04

©著作权归作者所有,转载或内容合作请联系作者

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 226,608评论 6赞 524
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 97,559评论 3赞 411
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 174,222评论 0赞 371
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 62,103评论 1赞 306
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 70,943评论 6赞 405
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 54,480评论 1赞 318
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 42,589评论 3赞 433
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 41,743评论 0赞 283
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 48,253评论 1赞 329
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 40,233评论 3赞 352
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 42,366评论 1赞 363
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 37,932评论 5赞 354
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 43,624评论 3赞 342
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 34,047评论 0赞 25
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 35,246评论 1赞 278
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 50,953评论 3赞 385
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 47,351评论 2赞 369

赞1赞

赞赏

手机看全文