PageRank实战:发掘5sing百万用户的隐藏核心

中国原创音乐基地(5sing) 是一个以网友原创音乐为主的音乐平台。与主流音乐平台不同,用户在5sing上并不主要是为了听知名歌手的音乐,而是可以发布自己的原创音乐作品,或者倾听、交流其他用户的音乐作品。正是具备这个特色,所以5sing虽然可能只是个小众平台,也依然聚集了大量的忠实粉丝——热爱音乐、坚持自我内心、不随波主流的小众群体。

鉴于已采集了5sing上约100W的用户信息和歌曲信息,其实可以有不少的数据分析和挖掘空间,不过本文只聚焦于一个细小而明确的问题:

谁是这100W用户中的隐藏核心?

一个很容易想到的角度就是:粉丝数越多的用户就越核心。可是单纯地比较粉丝数就没什么意思了,因为粉丝数只是综合影响力的维度之一,而且只看这一个维度难免有失偏颇。打个比方,一个被100个一线明星关注的大老板的粉丝数很可能远不如一个三线明星的多,然而论影响力显然就是粉丝数较少的大老板要大。

这就涉及到PageRank算法的基本思想了:在一个网络中,被越多优质的节点(网页)指向的节点就越优质

PageRank算法与Google的关系,以及它的数学推导什么的就先不说了(以后有时间有心情再说),我们直接上代码搞case study……

为了简单起见,这里做了如下约束,以粉丝数top100的用户为样本,观察他们所关注的单向社交网络,通俗点说就是获取这100个用户都关注了什么人;并且假设这100个用户都是平等的,不因为每个人的粉丝数、作品数的差异而赋予不同的权重,亦即所有的权重都是1。

先看看粉丝数最多的是哪些用户(为了图形的可读性,这里只放前50个):


5sing粉丝数top50歌手

我们可以看到前2名用户的粉丝数遥遥领先,因为他们是官方号(裁判在哪里)……


爬下的原始数据长这样:


用户单向关注网络

其中左边是关注人的ID,右边是被关注人的ID。

然后基于用户两两间的单向关注关系,创建邻接矩阵,迭代多次至收敛,就可以算出各个用户的PageRank分值(此处省略500字加50行数学公式……),分值最高的人影响力最大,也就是我们要找的隐藏核心。

当然这里依然为了简单(toulan)起见,并没有从零开始实现算法(虽然也简单),而是直接调包:

v <- vector()
for(i in 1:nrow(df)){
v <- c(v,df$rel_from[i])
v <- c(v,df$rel_to[i])
}

g <- graph(v,directed = T)
result <- page_rank(g)
result$vector %>% sort(.,decreasing = T) %>% head(1)

     1090120 
0.0003481353 

最后计算出的结果,pagerank分值最高的用户id是1090120,分值是0.0003481353

这个人是谁?

根据ID去查用户名,这个人是叶洛洛

从前面的柱形图里,你可能至少要花半分钟才能找到粉丝数排名20开外的叶洛洛,为什么他是隐藏核心?

我们先从数据的角度来看:

select rel_from,name from sing_top100_relation a
left join user_ids_5sing b on a.rel_from = b.uid
where rel_to = "1090120" order by fans_num desc;
叶洛洛的大V粉丝

可以看到,top50榜单中有不少人都是他的粉丝。这也印证了PageRank的思想:你本身粉丝数不是最多不要紧,只要有一堆粉丝数很多的人是你的粉丝,那你就很牛逼了!(虽然本文并没有用粉丝数作权重……)

其次从业务的角度来看:

如果你不混古风圈,如果你不泡5sing,也许你就不知道叶洛洛的身份:5sing编辑。所以他的粉丝数尽管不像5sing音乐人网站管理员这么高调,但其实也是官方人员啊……尽管我对他了解并不多,但我也略知他长期活跃于古风圈,也与不少古风圈有名的歌手、5sing的核心大V交好,所以现在能理解为什么他是隐藏核心了吧?

最后容我开一句不知是否冒犯的玩笑(如果是,我道歉),以作为本文的结论收尾:
在一个有限的群体中,所谓隐藏核心,并不是表面上最光鲜的人,而是握有最多的资源、最接近制定规则阶层的人。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,904评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,581评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,527评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,463评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,546评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,572评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,582评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,330评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,776评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,087评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,257评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,923评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,571评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,192评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,436评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,145评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容