数据

一、数据知识

如果若干属性是强相关的，则说明这些属性可能提供了高度冗余的信息，我们可以决定只保留一个。

二、数据预处理

1、维规约：

通过创建新属性，将一些旧属性合并在一起来降低数据的维度。通过选择旧属性的子集得到的新属性，这种维规约称为特征子集选择。

2、维灾难：

数据维度（属性）过高。数据稀疏，对于分类，没有足够多的数据用于建模；对于聚类，点之间的密度和距离定义失去了意义，分类准确率降低。

3、数据离散化：

将连续型变量离散化为离散型变量。

（1）非监督离散化：

2_01.png

<em>这里注意K均值离散化是什么样的技术，去寻找资料。</em>

（2）监督离散化：

计算熵，希望获得最小的熵：
![](http://www.forkosh.com/mathtex.cgi? e_{i}=-\sum_{k}^{j=1}p_{ij}*log_{2}(p_{ij}))
![](http://www.forkosh.com/mathtex.cgi? e=\sum_{i=1}^{n}w_{i}e_{i})
其中e为该区间的熵。
若纯：对于pij = 0或者1，ei = 0
若不纯：则熵最大。

4、变量变换

标准化：创建一个变量，使得它有均值为0，标准差为1
![](http://www.forkosh.com/mathtex.cgi? x'=\frac{x-\bar{x}}{s_{x}})
均值和标准差受离群点的影响很大，通常需要使用其他变化，用中位数（median）代替均值，使用绝对标准差（absolute standard deviation）取代标准差。绝对标准差：
![](http://www.forkosh.com/mathtex.cgi? \sigma_{A}=\sum_{i=1}^{m}\left|x_{i}-\mu\right|)

三、属性的相似度和相异度

1、相异度，距离

闵可夫斯基距离（Minkowski distance）：
![](http://www.forkosh.com/mathtex.cgi? d(x,y)=\left(\sum_{k=1}^{{n}\left|x_{k}-y_{k}\right|}{r}\right)^{\frac{1}{r}})
注：r=1时，曼哈顿距离。r=2时，欧几里得距离。r=无穷时，上确界距离。
距离的性质：
（1）非负性；（2）对称性；（3）三角不等式。

2、相似度

（1）简单匹配系数（Simple Matching Coefficient，SMC）

![](http://www.forkosh.com/mathtex.cgi? SMC=\frac{f_{11}+f_{00}}{f_{01}+f_{10}+f_{11}+f_{00}})
其中f11表示：x取1并且y取1的属性个数。其他类似。SMC可以是一个仅包含<strong>是非题</strong>的检测中用来发现回答问题相似的学生。

（2）Jaccard系数

![](http://www.forkosh.com/mathtex.cgi? J=\frac{f_{11}}{f_{01}+f_{10}+f_{11}})
以上两个系数，均用于二元变量，0-1的计算。

（3）余弦相似度

![](http://www.forkosh.com/mathtex.cgi? cos(x,y)=\frac{x\cdot y}{\left | x \right |\left | y \right |}=\frac{x}{\left|x\right|}\cdot \frac{y}{\left|y\right|}=x'\cdot y')
余弦相似度从等式右边，可以看出不需要考虑量值。其中，有向量点积计算公式：
![](http://www.forkosh.com/mathtex.cgi? x\cdot y=\sum_{n}^{k=1}x_{k}y_{k},\left | x \right |=\sqrt{\sum_{n}^{k=1}x_{k}{2}}=\sqrt{x\cdot x})

（4）广义Jaccard系数（Tanimoto系数，EJ）

![](http://www.forkosh.com/mathtex.cgi? EJ(x,y)=\frac{x\cdot y}{\left | x \right |^{2}+\left | y \right |^{2}-x\cdot y})

（5）相关性

Pearson相关系数，[-1,1]之间：
![](http://www.forkosh.com/mathtex.cgi? corr(x,y)=\frac{S_{xy}}{S_{x}S_{y}}=\frac{\frac{1}{n-1}\sum_{k=1}^{{n}(x_{k}-\bar{x})(y_{k}-\bar{y})}{\sqrt{\frac{1}{n-1}\sum_{k=1}}{n}(x_{k}-\bar{x})^{2}}\cdot \sqrt{\frac{1}{n-1}\sum_{k=1}^{{n}(y_{k}-\bar{y})}{2}}})
Bregman散度：
失真函数，损失函数。y为原来的点，x为某个失真值。给定一个严格凸函数，Bregman散度D（x，y）：
![](http://www.forkosh.com/mathtex.cgi? D(x,y)=\phi (x)+\phi (y)-\left \langle \triangledown \phi(y),(x-y) \right \rangle)
后面的为梯度和内积。

2_02.png

y=1时，在x=2和x=3上的Bregman散度。

（6）马氏距离（Mahalanobis距离）

![](http://www.forkosh.com/mathtex.cgi? mahalanobis(x,y)=(x-y)\Sigma ^{-1}(x-y){T})
x，y为两个点，中间的为数据协方差的逆。

最后编辑于：2017.12.04 05:48:54

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,492评论 6赞 513
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,048评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,927评论 0赞 358
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,293评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,309评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,024评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,638评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,546评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,073评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,188评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,321评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,998评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,678评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,186评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,303评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,663评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,330评论 2赞 358

数据