IDRN

重点: 1.基于距离构造带权的query的网络;2. 网络的社区发现,细粒度的。 3. (部分节点有label)根据一阶马尔科夫假设,通过节点本身和相邻节点的信息,构造多项式贝叶斯分类器。对节点进行多标签的分类,从标签的ranking中选择固定个数。粗粒度的。需要预定义好类别,通过一些规则预先标注一些节点。

在搜索中,通过用户的点击,可以收集到很多句子之间的关系,它们彼此连接,形成网络。这个网络中,有些句子也许被标记了类别(分类),大量的节点是未知类别。因此,通过一些其他特征(可能是文本上的),加上网络特征,希望得到更好的分类器。

通常,很多现实中的网络表现出一些有用的现象,如聚类、无标度现象。大部分的网络表现出高度聚类特征或者社群特性。聚类的现象说明可以把网络划分成社区,社区内彼此连接多,社区间彼此连接少。In the dense connected communities , the identifier of neighbors may capture link patterns between nodes. (邻居的标识符可能会补货节点之间的连接模式)。无标度现象,说明了高度节点的存在,而这些节点的分类对于补货local patterns 有帮助。节点标识符作为高密度的特征,提出了基于相邻分类器的识别器,分类器基于一阶马尔科夫假设和社群优先。

首先假设了:一个节点的分类仅仅取决于它的相邻节点及本身。

问题定义:有网络,网络中部分点被标记了,要预估未被标记的节点的label。

L 表示所有节点的label集合。yi 表示节点i的 class lable 取值,yi会被分配到一个类别值,这个值属于L.。Gi表示节点i的信息。P(yi=c|Gi)表示节点i 数据label c的概率。 

RN算法中,根据一阶马尔科夫假设, P(yi=c|Gi) = P(yi=c |Ni)    其中, Ni表示节点i 相邻的节点集合。

WvRN算法中,提出了带权重的投票算法。

Z用于标准化。Wi,j 表示节点i与j的权值。

IDRN 分类器:只考虑节点自己网络内的的节点的识别器,分类器会表现的更好。node identifier ,也就是对于单个的节点进行unique symbols , 提取后被作为特征用于学习和推理。基于一阶马尔科夫假设,简化节点i的信息Gi = G(N) = X(N) = {x | x 属于N} 并{i}。。。

将 i 的信息简化为 一个 特征向量,此向量为以 i 为中心的图 G(N) 的所有点的identifier。 G(N) 是节点i 的一阶区域子图。还考虑了节点本身的identifier。例如,一个节点i ,id 为1。与之相邻的节点为 2,3,5 。那么此节点 的特征向量 X(Ni) = [1,2,3,5]。基于朴素贝叶斯假设(严格的相互独立)

多分类

传统的多分类问题都是转化成one-vs-rest 问题。在训练IDRN分类器时,对于节点i,有多个真实的label值,我们将其转化成一组单label的点。然后,用朴素贝叶斯去训练模型,来预估先验概率 P(yi=c) 和 条件概率P(k | yi=c) 。

以MLE 为目标训练多分类器,多项式朴素贝叶斯的表现常常优于伯努利朴素贝叶斯。

假设我们训练数据中有N个点。Nc 表示 c类别的出现次数,Nkc 表示 feature k 和c 类别的共现次数。算法中,我们首先初始化N,Nc ,Nkc。然后,转换每个节点i(其多标签集合为Ti)到单类别数据。然后利用多项式朴素贝叶斯计算N,Nc ,Nkc。再然后,对每个类别和特征,计算P(Yi=C) 和 P(k|Yi=c)。

多标签预测,目标是为没有标签的数据找到最可能的标签集合。大多数的方法是对label进行ranking而不是精确的分配,这就需要一个阈值。为了避免引入这个阈值,我们给节点分配s个最可能的label,s是设定好的数字。另外,如上式,相乘的形式,一堆概率相乘,数值太小,可能会向下溢出。加上log,变为相加的形式。

先验社区:大家认为社区内的节点,具有相同的一些普通属性,扮演类似的角色。也有人认为相同社区的节点应该具有相似的表达。这些前提假设使我们可以对节点进行更精确的分类,在有有效训练数据的前提下。给定一个网络的社区分布,通过经验计数和加1 平滑方法,就可以预测P(yi=c| Ci) ,Ci 为node i 所属的社区,c 是类别。。

P(XNi | Ci)表示条件概率,而Ci 与XNi 相互独立,因此  P(XNi | Ci) = P(XNi) , P(XNi | Y=c,Ci) = P(XNi | Y=c)。因此

用Louvain 算法从网络中提取社区。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,100评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,308评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,718评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,275评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,376评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,454评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,464评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,248评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,686评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,974评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,150评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,817评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,484评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,140评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,374评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,012评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,041评论 2 351

推荐阅读更多精彩内容