ICML'09(高维最近邻中的hub)-Nearest Neighbors in High-Dimensional Data: The Emergence and Influence of Hubs

标题:高维数据的最近邻:hub的产生和影响
本文还有扩展版:Hubs in Space: Popular Nearest Neighbors in High-Dimensional Data (JMLR'10)
本篇博客将两篇文章合并来讲。

编者的总结

  1. 对高维数据的hub出现的原因提供了一个思路:考虑高维数据是球形分布,hubs离中心点的距离比较近,因此离所有其它数据都会比较近。
  2. 对hub对现有数据挖掘算法的影响提供了分析:hub倾向于离其它点都比较近,因此容易误导分类/聚类/相似性检索。

2. The Skewness of k-occurrences

2.1. A Motivating Example

  • 下图是在rand[0,1]数据集上精确knn图(k=5)的入度概率分布,三幅图是三个维度,不同曲线是不同的距离度量方式。可以看到维度较高(20,100)的时候,入度分布倾斜很明显,少量点的入度非常高,我们称之为hubs,其余大量点的入度则入度普遍较低。


    image.png

2.2. The Causes of Skewness

  • 取rand数据集中心点,计算其他点和中心点的距离,发现离数据集中心越远,入度越低,变化非常明显。


    image.png
  • 原因:作者解释现有的一些工作认为高维数据分布在一个以数据集中心点为球心的球上,且数据距离中心的距离的方差是比较大的,因此会有一部分数据离球心比较近,这部分数据距离数据集中其它所有的点都比较近,因此会成为hub。
  • 下图是rand数据集上,选择原点(中心点)作为观察点,计算和其它点的L2距离,得到的分布。随着维数增大,方差基本不变,均值差不多是\sqrt{d}(单位球半径)
    image.png
  • 下图虚线是一个距离中心点期望距离的点,实线代表的点比虚线代表的点距离中心点近两倍的标准差。
  • 可以看到离中心点越近,分布越往距离偏小的方向移动。
  • 而且维数越高,两个分布偏差的越多(见右图)。
  • 另一方面,从上面图4可以看到维数越高,距离中心越近的点越少,hub点实际是非常少量的在中心点附近的稀疏区域,且它们距离其它点都非常近。


    image.png
  • 这里面很有意思的一点是,大量的高维数据分布在离中心点比较远的边缘位置,但他们的最近邻还在中心点附近,说明它们在边缘部分没有KNN。这种现象越在高维越明显,说明数据在高维空间(单位球)上,有足够大的边缘空间,放置大量的数据点。这一点可以在几何上有印证。
    • 考虑二维空间半径为1的一个单位圆,我们想找到一组尽可能多的点,他们彼此之间的距离大于等于到圆心的距离,这组点最多有6个,是单位圆的内切正六边形。
    • 三维空间里,这组点最多12个;四维空间里,最多24个,这是kissing number,可以自己搜一下。

2.3. Skewness in Real Data

  • 下面作者用S_{N10},偏度(三阶中心距)来表示入度分布的倾斜程度。
  • 上面我们用的是rand数据做分析,在真实数据上会有两个其它特征:
  1. 属性不独立->因此需要本征维数
    • 把真实数据集每一维的数据random permutation一下,发现偏度明显增加
  2. 有聚集特征,所以更好是分配若干dataset means
    • 如果把偏度和数据到数据集中心距离的spearman相关系数C_{dm}^{N10},与偏度和数据到聚类中心距离的Spearman相关系数C_{cm}^{N10}做比较,会发现后者普遍比前者大很多。
image.png

2.4. Skewness and Intrinsic Dimensionality

  • 数据集的偏度,相比于原来的维数,和本征维数的相关关系更明显一些。
  • 下图用PCA降维,发现取一部分维度之后,偏度就已经饱和,后续的维度不增加偏度了。


    image.png

后文作者针对基于最近邻的分类,聚类,信息检索算法做了在高维空间的改良,主要思路是针对hub做额外的惩罚或者奖励以提高精度。

  • 比如聚类,hubs因为离谁都近,所以簇间距就比较差;outliers互相之间也比较远,所以簇内距就会比较差。因此都会影响聚类评分。
  • 比如信息检索,假设query和base同分布,那么query会更容易找到hubs,但hubs不一定相关,所以可以对hubs做一些惩罚。

5.2.1 NEAREST-NEIGHBOR GRAPH STRUCTURE

  • 总共10000个点的Random数据集
  • 如图a,在高维空间里,hub的5-NN更容易也是hub;
  • 如图b,c,hub的入边邻居在高维空间中,更容易是非hub。
  • 总的来说,随着维数增加,hubs的入边邻居,无论是从其他hub或者非hub,都在增加。
image.png
  • 另外一个观察就是网络中的介数中心性(betweeness centrality)。代表的是在图上找任意两点最短路,通过某点的概率是多大。作者发现介数中心性和hubness之间关联性不低。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容