数据

一、数据知识

如果若干属性是强相关的,则说明这些属性可能提供了高度冗余的信息,我们可以决定只保留一个。

二、数据预处理

1、维规约:

通过创建新属性,将一些旧属性合并在一起来降低数据的维度。通过选择旧属性的子集得到的新属性,这种维规约称为特征子集选择。

2、维灾难:

数据维度(属性)过高。数据稀疏,对于分类,没有足够多的数据用于建模;对于聚类,点之间的密度和距离定义失去了意义,分类准确率降低。

3、数据离散化:

将连续型变量离散化为离散型变量。

(1)非监督离散化:
2_01.png

<em>这里注意K均值离散化是什么样的技术,去寻找资料。</em>

(2)监督离散化:

计算熵,希望获得最小的熵:
![](http://www.forkosh.com/mathtex.cgi? e_{i}=-\sum_{k}^{j=1}p_{ij}*log_{2}(p_{ij}))
![](http://www.forkosh.com/mathtex.cgi? e=\sum_{i=1}^{n}w_{i}e_{i})
其中e为该区间的熵。
若纯:对于pij = 0或者1,ei = 0
若不纯:则熵最大。

4、变量变换

标准化:创建一个变量,使得它有均值为0,标准差为1
![](http://www.forkosh.com/mathtex.cgi? x'=\frac{x-\bar{x}}{s_{x}})
均值和标准差受离群点的影响很大,通常需要使用其他变化,用中位数(median)代替均值,使用绝对标准差(absolute standard deviation)取代标准差。绝对标准差:
![](http://www.forkosh.com/mathtex.cgi? \sigma_{A}=\sum_{i=1}^{m}\left|x_{i}-\mu\right|)

三、属性的相似度和相异度

1、相异度,距离

闵可夫斯基距离(Minkowski distance):
![](http://www.forkosh.com/mathtex.cgi? d(x,y)=\left(\sum_{k=1}{n}\left|x_{k}-y_{k}\right|{r}\right)^{\frac{1}{r}})
注:r=1时,曼哈顿距离。r=2时,欧几里得距离。r=无穷时,上确界距离。
距离的性质:
(1)非负性;(2)对称性;(3)三角不等式。

2、相似度
(1)简单匹配系数(Simple Matching Coefficient,SMC)

![](http://www.forkosh.com/mathtex.cgi? SMC=\frac{f_{11}+f_{00}}{f_{01}+f_{10}+f_{11}+f_{00}})
其中f11表示:x取1并且y取1的属性个数。其他类似。SMC可以是一个仅包含<strong>是非题</strong>的检测中用来发现回答问题相似的学生。

(2)Jaccard系数

![](http://www.forkosh.com/mathtex.cgi? J=\frac{f_{11}}{f_{01}+f_{10}+f_{11}})
以上两个系数,均用于二元变量,0-1的计算。

(3)余弦相似度

![](http://www.forkosh.com/mathtex.cgi? cos(x,y)=\frac{x\cdot y}{\left | x \right |\left | y \right |}=\frac{x}{\left|x\right|}\cdot \frac{y}{\left|y\right|}=x'\cdot y')
余弦相似度从等式右边,可以看出不需要考虑量值。其中,有向量点积计算公式:
![](http://www.forkosh.com/mathtex.cgi? x\cdot y=\sum_{n}^{k=1}x_{k}y_{k},\left | x \right |=\sqrt{\sum_{n}{k=1}x_{k}{2}}=\sqrt{x\cdot x})

(4)广义Jaccard系数(Tanimoto系数,EJ)

![](http://www.forkosh.com/mathtex.cgi? EJ(x,y)=\frac{x\cdot y}{\left | x \right |^{2}+\left | y \right |^{2}-x\cdot y})

(5)相关性

Pearson相关系数,[-1,1]之间:
![](http://www.forkosh.com/mathtex.cgi? corr(x,y)=\frac{S_{xy}}{S_{x}S_{y}}=\frac{\frac{1}{n-1}\sum_{k=1}{n}(x_{k}-\bar{x})(y_{k}-\bar{y})}{\sqrt{\frac{1}{n-1}\sum_{k=1}{n}(x_{k}-\bar{x})^{2}}\cdot \sqrt{\frac{1}{n-1}\sum_{k=1}{n}(y_{k}-\bar{y}){2}}})
Bregman散度:
失真函数,损失函数。y为原来的点,x为某个失真值。给定一个严格凸函数,Bregman散度D(x,y):
![](http://www.forkosh.com/mathtex.cgi? D(x,y)=\phi (x)+\phi (y)-\left \langle \triangledown \phi(y),(x-y) \right \rangle)
后面的为梯度和内积。

2_02.png

y=1时,在x=2和x=3上的Bregman散度。

(6)马氏距离(Mahalanobis距离)

![](http://www.forkosh.com/mathtex.cgi? mahalanobis(x,y)=(x-y)\Sigma {-1}(x-y){T})
x,y为两个点,中间的为数据协方差的逆。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,875评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,569评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,475评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,459评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,537评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,563评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,580评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,326评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,773评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,086评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,252评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,921评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,566评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,190评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,435评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,129评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,125评论 2 352

推荐阅读更多精彩内容

  • 国家电网公司企业标准(Q/GDW)- 面向对象的用电信息数据交换协议 - 报批稿:20170802 前言: 排版 ...
    庭说阅读 10,943评论 6 13
  • 数据 围绕4个方面展开数据的讨论: 数据类型:属性的类型,数据集的类型。 数据质量:必须解决的质量问题包括存在的噪...
    hyfine阅读 1,572评论 0 0
  • 作者:Joel Grus读者:锅巴GG Joel Grus 是 Google 的一位软件工程师,曾于数家创业公司担...
    锅巴GG阅读 2,164评论 3 16
  • 从昨天开始,我在房间做事的时候就把他带在身边,让他自己坐在爬行垫上,只要不危险,就随他在爬行垫上坐,爬,看书...
    穿prada的女王阅读 339评论 0 1
  • 现在各种知识都有人感悟、整理,形成体系;各种知识又都错综盘杂,互相参照,我中有你、你中有他;似乎盘节成一棵大树,但...
    江苏刘志祥阅读 692评论 0 2