graph&networks

问题与概念域:

{

  • 重叠社区,非重叠社区,nested

  • nodes 属于多个 communities

  • 如何生成 graph(network)? 即有了nodes的set,如何定义edge?

  • 有graph如何生成能够generate这个network的 model?

}

Community-Affiliation Graph: AGM

{

  • community c
  • probability p ( each community has a single p)
  • memberships m
  • nodes v
    =>how to generate network?
  1. 对每个在community A中的nodes对,我们将两者以probability Pa 连接。(只要nodes对有相同的community那么两者就会以一定概率连接)
  2. 计算edge probability

}

BIGCLAM:

{

  • memberships have strength,越大则代表越活跃,0则非member

  • community membership strength matrix F:
    行为nodes,列为communities

  • 只有一个共同community,计算同一个community中nodes对连接的概率:1-exp(-F(nodea)*F(nodeb));share多个communities,计算则从反面考虑1-(1-p1)(1-p2)...(即计算至少有一个community将nodes对连接的概率)

  • 给定一个network G(V,E) 如何找到F,使得network的极大似然最大(极大似然的计算公式:有边的概率和无边的概率连×)?即 l(F) = log P(G|F),给定F条件下G的极大似然函数求对数形式。1.计算gradient 2.梯度下降,对每一行计算l对该行F的梯度,以学习步长更新该行F,迭代 3.如果该行F<0,则令其为0

  • 但是计算每行F的偏导是linear time,非常慢。
    对属于node u的邻节点,和不属于u的邻节点的F都出现在公式中,每次计算偏导都需要对所有node n个 进行遍历。

  • 改进:将所有node的F的和 cache,那么非邻节点部分的计算则转化为和减去邻节点,这样只需要遍历u的邻节点的F 即可计算偏导再进行迭代,加速明显。

  • 数据:BIGCLAM 5min处理300k节点的nets,其他需要10days,能够处理100M条边的连接。

}

Detecting cluster:

{

  • Goal: given network, find densely linked clusters(output: set of nodes in same cluster)

  • 应用场景:
    query - to - adveritser (许多广告都属于类似的几个query)
    actor - to -movie (subset of actors belong to a subset of movies)
    social circles,circles of trust (找到set of my family ,set of my classmates等等network的子集)

  • how to define a good cluster?
    最大化cluster内部的连接数量
    最小化cluster之间的链接数量
    即为 关于edges的cut函数

  • cut:(对于有权无权图来说都可用,无权则设所有权都为1) 是set of edges with only one node in the cluster cut(S) = 所有一个节点属于S另一个指向另一cluster的edge的weight和
    =>最小cut?最优cut?

  • 引入Conductance--Graph Partitioning Criteria:

  1. 给定set A ,Conductance = cut(A) / min(vol(A) , 2m-vol(A)),其中
    vol(A) = di的和 (i是A的node,di : degree of node i),m是graph的edges总数。
    注意这里的degree会对edges重复计算,因为是基于nodes的degree。
  2. min意味着,选择的cluster A的所有degree之和应当小于m/2,即总edges一半。否则如果A过大,那对这个比直接过影响太大。即相对于group自身的density来说group和其余network部分的连接。
    这个比值越低,意味着cut越好。
  • 为什么使用这个criteria?
    实践证明能够产生更多balanced partitions
    但是计算最优cut是np问题。

}

Spectral Graph Partitioning:

{

  • 从邻接矩阵来看,cluster会是什么样子?一块数字比较大,一块几乎是0。数字较大表明nodes之间关联强,属于同一个cluster。行列皆为nodes。

  • spectrum是邻接矩阵特征值的集合。那么和graph有什么关系?(考虑最简单的情况,graph有两个component,每个component中每个node的degree都为d)
    intuition:如果一个特征值有两个特征向量,则这两个子图分离;如果两个特征值相近,则两个字图之间有连接但非常弱。

  • 邻接矩阵重要性质:对称,特征值为实数且正交

  • Degree matrix:D= [dii] dii是node i的degree
    Laplacian matrix: L = D - A。
    性质:L *x =0 ;每行每列和为0 ;特征值为0

  • 对一个对称矩阵M第二小的特征值公式:math证明略。化简后问题转为找到最小化 (xi - xj)^2之和的 x ,i、j为一个cluster中的node。

  • 将partition(A,B)表达为一个向量,即属于A时,y为+1,属于B为-1。将 最小化 (xi - xj)^2之和 转为找x使得 (yi-yj)^2之和 最小。yi只能在-1,+1中取值。=>不能准确解决,将y松弛。恰好即为第二小的特征值。

  • Rayleigh Theorem
    总结:最优化cut的问题,即时最小化第二小特征值的问题,即时寻找参数 x的问题,而x又是第二小特征值的特征向量。x被称作Fiedler vector

  • 最后,根据L计算出的第二小特征值及特征向量进行分组,如何cluster?即如何选择splitting point的问题。排序,split at 0,分成正负两类。

  • 有降维的意思。x就能够涵盖cluster的信息即graph中所有nodes的信息,比L小得多。

  • 多个cluster 如何?
    k-way spectral clustering:

  1. 迭代bi-partitioning
  2. 使用多个特征向量,构成一个矩阵,使用一种聚类方式(kmeans等)进行对这个特征向量构成的矩阵聚类(每个node被特征向量中对应的值表示 i:(x1i, x2i ,x3i...)x1,x2...为特征向量)(实践效果很好)

}

Trawling:

{

  • 找到graph中的小的community?

  • 定义task:
    given:left 有 s个nodes,每个links all nodes on the right (fully connected);right 有 t个nodes。identify all the 完全二部子图(complete bipartite subgraphs)

  • frequent itemsets:
    找到所有subsets T of at least f times bought together by users。这个问题和完全二部子图的关联?=> frequent itemsets = complete bipartite subgraphs

  • 可以把一个graph转成itemsets,graph中出边指向的node即为set中的items,起始点即可视为为user的basket。完全二部子图是整个graph的一部分,可用频繁物品集表示。

}

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351

推荐阅读更多精彩内容

  • 瑟瑟起长风, 独步关山道。 黄花素淡开, 曲径多寒峭。 ~ 日落暮烟浓, 时见归飞鸟。 心海寂无尘, 秋声不能扫。
    崔玉荷阅读 174评论 0 0
  • 2017-04-29 乙寅青婷健康塑体生活馆 告诉大家一件很恐怖的事!! 天气越来越热了 夏天措不及防的就出现了 ...
    减脂教练孙华阅读 249评论 0 0
  • 2017-4-2@冠华谈 在学习过程当中将进来的货分享给别人的时候,我们很多人心里面有一个魔杖。 这个魔杖就是:我...
    feng冠华阅读 223评论 0 0
  • 矜持了一天一夜的云,再也关不住那满腔情愫,在拂晓之时化作细细雨丝开始飘落。 情到深处泪自涌,淅淅沥沥,滴滴答答,哗...
    幸福_娟阅读 282评论 1 2
  • 一场游戏 迎来了人生过往 七堇年,陪着岁月飘香 是你那双深邃的眼眸 把长夜的寂寥 点亮 还得让平凡的故事 重演 演...
    江城妖怪阅读 403评论 0 0