数据预处理

数据预处理:

参考 朱/欧等,《数据科学导引》

朱占星课程ppt


离散特征编码:

One Hot编码:在数据是离散的分类的时候采用。避免用0,1,2,3...这样的编码方式给各个分类引入次序。

但是One Hot的缺点是:1,引入了太高的维度。

                                       2,特征之间引入了线性相关性:f1+...+fn=1

解决2的办法是引入哑变量

=====

数据标准化:

量纲会造成影响,所以要标准化。

有时候需要输入特征为标准化形式,线性模型里面的l1 l2正则项等等,需要特征均值在0附近而且方差齐次。

Z-score:

f_{i}^{\prime}=\frac{f_{i}-\mu}{\sigma} 适用于最大最小值位置,分布很离散的情况。

min-max:

f_{i}^{\prime}=\frac{f_{i}-f_{\min }}{f_{\max }-f_{\min }} 可以弄到小区间里。缺点是:不是online,如果有离群点,会比较差

小数定标标准化:

直接除以10多少次,然后缩小到[-1,1]区间里。一个问题是有可能原先的特征的大小很集中在一个量级,比如1000-2000,那么除以10000的话就容易集中在一个位置。而且也不是online。

Logistic标准化:

用逻辑斯蒂函数。缺点是:如果特征是绝对值比较大的,那么会分布在0和1附近。对于那些绝对值小而且分布在0周围的有用。

=====

数据离散化

增加鲁棒性,减少离群点的影响。使得模型的可解释性更强(数据区间有明确的含义)。特征取值大大减少,减少存储和实际运算量。

离散化的目标:在尽可能减少损失的前提下,去减少离散化的元数。

无监督离散化

等距离散化(每个段的长度基本一致。缺点:离群点影响大)

等频离散化(每个段的样本数量基本一致。一定程度解决了离群点的问题,但是很接近的两个样本很有可能分到两个不同的区间里)

聚类离散化(直接对特征做聚类,然后把聚类簇做进一步的分解或者是合并)

有监督离散化

信息增益离散化(利用决策树中的信息增益方法离散化。是自顶向下的)

卡方离散化(自底向上。算卡方统计量。算法开销大)

=====

处理缺失值

直接删掉

均值填补法(连续用平均,离散用众数)(缺点是特征之间是有相关性的,直接均值填补的话会忽略掉相关性)(一个例子,也是处理上个括号的方法是:如果有两个特征,一个是入学年份,另一个是年龄。年龄有缺失。这两个特征是明显相关的。可以按照入学年份分成小组,然后均值)

最近邻填补(用其他的特征来判断,选择其他特征最近的一个做填补。)(怎么定义“距离”是个问题)

=====

检测离群点

统计方法:分位点,箱图

k近邻方法:算出每个点的k近邻距离,然后按照从小到大排列,选定一个阈值,大于的设置为离群。

(一个问题是!只能检测到整体的离群,检测不到局部离群)

LOF算法:k近邻方法的升级版,可以检测局部离群:

d_{k}(x)表示x到第k个最近的样本的距离。定义距离:\operatorname{rd}_{k}\left(x_{1}, x_{2}\right)=\max \left\{d_{k}\left(x_{2}\right), d\left(x_{1}, x_{2}\right)\right\}。如果x1不在x2所在的那个小类里面,这个值就会和x1和x2之间的距离比较接近。

定义\operatorname{lrd}_{k}(x)=\left(\frac{1}{k} \sum_{y \in N_{k}(x)} \mathrm{rd}_{k}(x, y)\right)^{-1} 看倒数里面,如果这个值很大,说明那些跟x很近的点看来,x离他们并不近,x可能是个离群点。所以这个值(倒数)越小越离群。定义指标:

\operatorname{lof}_{k}(x)=\frac{1}{k} \sum_{y \in N_{k}(x)} \frac{\operatorname{lrd}_{k}(y)}{\operatorname{lrd}_{k}(x)}

如果接近1.说明正常,如果小于1,也是正常,如果远大于1,说明x应该是离群的。

缺点!样本量大维度大的时候,是很低效的)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,295评论 6 512
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,928评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,682评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,209评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,237评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,965评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,586评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,487评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,016评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,136评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,271评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,948评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,619评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,139评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,252评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,598评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,267评论 2 358

推荐阅读更多精彩内容