爬虫小作业 B站“暴走漫画”用户分析

萌新初试爬虫,在对@Airing的爬虫报告“B站2000万用户分析”进行一番学习后,想进行一些实践,于是就有了今天的《暴走漫画》用户小分析。

几番瞎折腾后,明白制约爬虫实践的最主要因素是爬取速度(当然爬取速度的上限又跟能力水平有)。为了尽快完成这次小作业,我选择了数据量较小的爬取任务,即针对B站某一频道的用户进行爬取。尽管如此,《暴漫》的粉丝也有23w之多(截止到2018.02.17),最终我采集了其中的约13w用户数据,实际采集时间约两天(采集到一半觉得不好又重新采集我就不算了...)。


1.基本情况

采集对象:“暴走漫画”的用户(严格来说,不能肯定其为“关注‘暴漫’的粉丝”,因为没有一一确认是否关注了“暴走漫画”频道...)

  • 数据量:130898

  • 采集时间:2018.01

  • 抓取字段:用户id,昵称,性别,等级,地址,生日,注册时间,签名等。

2.数据展示

2.1 男生/女生比例

  • 有效数据:69943

  • 其他:60955

开场就是男女比,惊不惊喜?

并不会...毕竟B站的女生就真的是妹子吗??!(男生就真的是基佬吗?真的...)


男女比接近3:1,比较吻合@Airing早期爬取的全站数据。(直男配色请谅解..)

同时......还有约一半的同学选择不暴露自己的性别。

2.2 用户星座

  • 有效数据:91944

虽然我不大懂星座,但既然采集了birthday数据,不可视化就浪费了。(而且把星座放上来的话,会有更多的妹子看吗不是~逃)

天秤最多,白羊最少,性格分析就交给你们了...

2.3 地域分布

  • 有效数据:25300

喜欢“暴漫”的盆友哪里最多呢?胡建人:溜了溜了...

广东人:不够吃...嗝~

再赠全国的盆友一张完整版词云:

2.4 用户等级

  • 有效数据:130898

恩,主体是LV4的站友,LV0、LV1的用户少得可怜,我判断“暴漫”的用户主要是老粉吧。另一种可能就是B站新增用户太少...

作为15年注册,如今LV4的用户,表示主要是为了上B站看电影...所以上得多,但弹幕发得不多,活跃度一般...但我显然难以代表多数人,所以我也觉得单独的等级分布不易分析,可能需要跟其他自媒体的用户数据对比分析,留个小坑。

话说,要是做多个自媒体的弹幕用户的信息分析对比,得到的结果可能比较有趣~

2.5 注册时间分布

  • 有效数据:127139

犹记得当年的AB站拿个正式用户可不容易了...连蒙带猜算是混过了B站的考试。

17年注册的“暴漫”用户叫少,也符合了上面的推测——新用户看“暴漫”的较少。如果把新用户≈年轻人,就容易理解些,毕竟“小孩子不要看动漫嘛”。

数据采集截止于2018.01下旬,所以2018几乎为空。

2.6 用户签名

  • 有效数据:74847

“暴漫”的用户选择用什么样的签名呢?这里用词云展示一下。

我反正是看到了满屏的“233333”。

2.7 用户昵称

  • 有效数据:130898

我选择在最后才揭露“暴漫”用户的昵称数据。

“密恐?......才不管呢”[狗头] (源自《南极料理人》)

后记

介绍一下工具:
采集用到Python + Requests 或者 Python + Splinter (≈Selenium)
存储数据用到SQLite或者Excel(xlwt、xlrd、xlutils)
数据可视化用到infogram图表秀HTML5 Word Cloud(非常棒!用法参见这篇文章)

代码估计会迟一些,以上。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,012评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,628评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,653评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,485评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,574评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,590评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,596评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,340评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,794评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,102评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,276评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,940评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,583评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,201评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,441评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,173评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,136评论 2 352

推荐阅读更多精彩内容