简书用户数据第一篇

最近用Python写了一个简书用户的爬虫,单机耗时30小时抓取了简书30万用户的数据(设置了适当的下载延迟,所以耗时较长。当然了,主要是避免简书服务器造成不必要的压力)。简书用户用户量我不知有多少,这30万只是其中相对活跃的一小部分,但个人认为这份数据还是具有一定的代表性。下面就带你们看看这30w用户的情况。


一、简书大V

我是以粉丝量评判简书的大V的。从这30w数据中筛选出粉丝量Top10的用户。

简书top10|center

1.其中彭小六以113463粉丝居第一位,简黛玉以106667粉丝居第二位,简书的CEO简叔以80533粉丝居第三位。后面的大V的粉丝量和这三位还是有一定的差距。
2.当然了大V可不止10个,我们来看看拥有10000粉丝的用户是怎样一种存在。万粉户共69人,粉丝在两万左右的大V较多。如下图:

3.彭小六一人生生把这个图撑大了

4.简黛玉平均一个喜欢对应一个粉丝儿,堪称粉丝收割机。想来写的东西必然是高质文章,作为一个只看过几篇首页热门文章的萌新不太了解,等会儿先去关注她,坐等好文推送(#滑稽)。

二、简书高质量大V

话不多说,先看一张图。

文章赞与千字赞.png

1.看见没,右上角的剽悍一只猫每篇文章有653.8个赞,每写1000字就收获534.5个赞,真是剽悍了,我的哥,估计篇篇文章上首页。
2.再看看右下角这位阿琴姑娘 ,近550赞/千字,估计写的都是高质量短篇。好吧,去复制她首页的时候发现是写诗的,唉,曾经我也是爱诗的小少年。可惜现在都成粗人一个了……
3.简叔就不说啦,开创简书的大佬!
4.图中中间偏上部分几位,具有很强悍的实力,应该也是长居首页,且有大批真爱粉。他们的主页| 入江之鲸 | 三顿ppt | 安梳颜 | 十三夜 | Josie乔 | 韩大爷的杂货铺 | 叶上清之宿雨
5.左下角的这些分布较密集,处于简书金字塔的第二层。应该也是频繁出现在热门里。将来进阶神级的储备大V!

三、高冷的大V

我以前以为大V都是高冷的,为了证明我是错的,我画了张图(根据粉丝数/关注数画的)

万粉大V高冷度.png

1.尹惟楚韩大爷的杂货铺鹿人三千这三位没关注一个人。那么多粉丝,你都不看一眼吗(卖萌脸)。
2.纯银VJosie乔经典重读只关注了1个人。说吧,和这个人什么关♂系♀??
3.彭小六简黛玉毒舌电影也仅仅是只关注了寥寥几个人。
4.好吧,看来我确实没错,大V确实够高冷(扎心了.jpg)。
  当然了,那几块最小的也是关注别人比较多的。比如万分户阿琴姑娘就是个勤奋的姑娘呢,关注了7000多个人。官方号简书也关注了2300多人。常驻首页的刘淼也关注了900多人。

四、码字狂人

在简书写了100万字的用户有15位

简书百万字.jpg

1.毒舌电影这位码字最多330多万字(截止2017/6/9)。330万啊,印成书也要大几本,刚查了下,四大名著加起来也才350万字。可怕,不知道这位佬到底要看多少电影才写出那么多文章。
2.又见简黛玉,图中可以看出,码字(以万为单位)多粉丝(图中以百为单位)也多。本来应该把这个数据去除的,因为她把图撑歪了,汗……
3.Sting憨憨故事鸭梨山大哎知识分子志造美姚超龙历史的星辰这几位码了很多字,却没有收获多少赞,不知是文章质量不高,还是怀才不遇。不过能码百万字也不容易,我这markdown新手,添加超链接简直要手软。。。

说了那么久,说的都是大V,下面也说简书里的小透明吧。

五、关注狂魔

就不画图了,直接数据库里面截图看看,关注别人最多的前十位用户。


1.临川人名列第一,居然关注了12866人,这位老哥,不知道你的简书时间线会爆炸不。
2.桐子树下也关注了一万多人,真是厉害。
3.Athena79这位神奇的用户,关注了7000多人,却一个字也没写过。也不是啥也没有,毕竟190个人回粉了嘛,哈哈。

六、用户都拥有多少粉丝

先来统计下,本来我想以十/百/千/万为阶段,然而没想到超过10个粉丝的不到30万用户的10%。只好以零/五/十/百/千/万为阶段了。先用代码统计下:

import pymongo
client = pymongo.MongoClient("localhost", 27017)
db = client['JianShu']
print('粉丝为0:',db.user.count({'followers_num':0}))
print('0<粉丝≤5:',db.user.count({'followers_num':{'$gt':0,'$lte':5}}))
print('5<粉丝≤10:',db.user.count({'followers_num':{'$gt':5,'$lte':10}}))
print('10<粉丝≤100:',db.user.count({'followers_num':{'$gt':10,'$lte':100}}))
print('100<粉丝≤1000:',db.user.count({'followers_num':{'$gt':100,'$lte':1000}}))
print('1000<粉丝≤10000:',db.user.count({'followers_num':{'$gt':1000,'$lte':10000}}))
print('粉丝>10000:',db.user.count({'followers_num':{'$gt':10000}}))
#输出
粉丝为0: 172589
0<粉丝≤5: 88812
5<粉丝≤10: 13052
10<粉丝≤100: 19928
100<粉丝≤1000: 4851
1000<粉丝≤10000: 699
粉丝>10000: 69

1.粉丝为0的有172589人。哈哈哈哈哈哈哈哈哈哈哈哈哈哈,看来0粉的我并不孤独。等我攒一个粉丝就超过了一半以上的人,想想还有点小激动呢,嘿嘿。
2.越往上走人越少啊,粉丝超过100的居然只有5000多人了,看来各位简友还需努力。别只看别人写,也动下自己的小手手,分享出你认为有价值的东西,记录生活,记录学习(这特么是对我自己说的么?道理都懂,然而我……!)。
3.算了,直接放个大饼,你们看看吧


用户粉丝数.jpg

七、平均数

哈?平均数?又要被平均了?
是的,来看看你被平均的有多惨。

1.平均每人有19.27个粉丝
2.平均每人关注17.28个人
3.平均每人被喜欢43.35
4.平均每人写5082.66

哈哈,也不是很惨嘛。虽然平均数很低,还是没达到吧,红红火火恍恍惚惚。
你们简直太弱,我和彭小六平均粉丝有50000+!


总结

1. 平均每人有19.27个粉丝,平均每人关注17.28个人
这里粉丝与关注不对等,没有形成闭环。说明还是数据代表性还不是非常强。(毕竟我只抓了大V的粉丝,没有进行二级用户粉丝抓取)
2. 哪还有2???不存在的!反正我又不2!

连分析带写用了近一天(我怎么那么慢?有点怀疑人生),手软,下次再写吧。很久没有写那么多字了,思路可能有些混乱还有不严谨的地方,望各位拍砖指正,谢谢阅读!第一次在简书分享,有点小激动。

爬虫源码:https://github.com/malone6/Jianshu ,欢迎到github给我star

声明:本文原创,其他平台转载务必简信给我

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容