论文笔记之node2vec: Scalable Feature Learning for Networks

node2vec: Scalable Feature Learning for Networks

直接上图。可以看到在network中有两个community,u和s1属于同一个community,u和s6属于不同的community,
node2vec基于的两个原则:
•属于同一个community的节点之间的embedding应该是接近的(如u和s1)。
•share相似的structural role的节点的embedding应该是接近的(如u和s6)。

node2vec的一些参数表示了不同的网络探索策略,并且这些参数可以使用一部分标注数据学习得到(半监督学习)。
node2vec还可以通过对于两个node representation简单的二元运算,得到边的representation。

node2vec是基于random walk的,以前的一些基于random walk的算法(比如deepwalk)的搜索策略是单一固定的,而node2vec提供了参数来调整搜索策略。

FEATURE LEARNING FRAMEWORK

G=(V,E)表示图
目标:学到一个|V|*d的feature representation矩阵,其中d是embedding的维度。
对于每个节点u∈V,定义集合Ns(u)包含于V表示u在neighborhood采样策略S下的neighborhood。
目标函数为:

f(u)是u节点的embedding,也就是说通过调整f来最大化given f(u)的情况下,能够观测到u的实际neighborhood节点集合Ns(u)的概率。
为了让优化问题tractable,给出两个假设:
•条件独立。假设给出f(u)的情况下,观察到u的各个neighbor的概率是独立的,于是有

•特征空间对称性。假设在特征空间中,u节点和其neighbor节点ni直接的影响是相互的。用u和ni的feature的点积为参数的softmax来表示Pr(ni|f(u)),即

根据上述两个假设,等式(1)可以化简为

其中Zu可以理解为节点u的配分函数(partition function)

由(1)到(2)的具体推导如下:

配分函数Zu对于大规模的网络来说计算量过大,因此使用负采样来近似。
通过随机梯度上升来最大化likelihood得到最优的f。

Classic search strategies

下面需要一种方式来获得node sequence。
目标:对于节点u,采样包含k个nodes 的neighbor set Ns。
一般来说有两种采样策略:
•BFS
•DFS

对于network embedding而言,一般有两种相似性:
•homophily
•structural equivalence
homophily指的是节点之间互相连接并且属于同一个网络簇,则它们的embedding应该是接近的。比如图中的s1和u。
structural equivalence指的是有相似的structural role的节点的embedding应该是接近的。比如图中的u和s6都是作为一个community的中心。

需要强调的是,与homophily不同,structural equivalence不强调连接,两个节点即使在network中离得很远,仍然可以有相似的structural role。
BFS更多的在考虑structural equivalence,而DFS更多的在考虑homophily。

node2vec

node2vec的采样策略同时考虑了BFS和DFS。

Random Walks

以u为其实节点,开始长度为l的随机游走。ci表示随机游走中的第i个节点,c0=u.
ci由下式产生,

其中πvx为节点v和x之间的未归一化概率,Z是归一化常数。

Search bias α

最简单的方法是令πvx=Wvx,如果是无向图,就令Wvx=1,但是这样做的效果并不好。我们希望能找到一种方式,可以结合BFS和DFS。

在node2vec中定义参数p和q来引导walk。

如图所示,random walk刚从t走到v,接下来考虑往哪边走。

其中

dtx表示节点t和x之间的最短距离。直觉上,参数p和q控制random walk探索或者离开节点v的neighborhood。

增大p的值,表示我们不太希望random walk回到刚刚进来时的节点。
q>1,random walk偏好于靠近t的节点,也就是偏好于在小区域探索,可以看作BFS的想法。
q<1,random walk偏好于远离t的节点,可以看作DFS的想法。
整个random walk可以看作一个二阶马尔科夫链(t与x2有关,因此是二阶。需要注意的是,这里的说法与MCMC中的markov chain是完全不同的,markov chain本质是概率图模型,每个节点表示的是一个随机变量)。

The node2vec algorithm

总结node2vec,三个步骤:
•预处理计算转换概率
•产生random walk
•SGD优化求解

DeepWalk可以看作是特殊的node2vec,也就是p=1,q=1的情况

对于p和q,可以在部分标注数据上用网格搜索比如p,q∈{0.25,0.50,1,2,4}学习到。

在一些问题中,比如说link prediction,需要边的representation。
对于节点u和v,在f(u)和f(v)上定义一个二元操作o,来产生g(u,v)表示d'维的边representation。即使u和v直接在network上没有边,做edge embedding的时候也认为有一条false edge。
操作o的定义可以从下面的表格中选取,并且d=d'

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351