前言
原文链接:https://seattleboy.github.io/2018/03/11/Script-1/
过了狗年,又老了一岁,也进入研二下学期了。2018年接下来的几个月相继面临着实习、找工作等,也是该好好学点儿出去能挣口饭吃的本领了,特爬了200万的知乎用户数据做些数据分析、机器学习等工作来练练手。本文是百万知乎数据的第一篇,接下来的博文我会对从不同的角度挖掘这些数据隐含的一些有趣的信息。
思路来源
之前看了很多网上的大牛爬了上百万的知乎用户数据进行分析,对这样的事情很感兴趣,因为自己平时也做这个方向,以后也想要找这个方面的工作。遂网上找了GitHub上的知乎爬虫爬了两百万的知乎用户数据(上个月爬的数据,具有一定的时效性,仅供参考和娱乐使用),做些数据分析或者机器学习方面的尝试。
我目前已经看到三篇这样的文章,都对我有很大的启发,在这里引用一下,其中的爬虫也来自第一篇文章的作者的GitHub,而第二篇文章则主要分析了国内的名校的程序员们都去哪里工作了?有一部分讲了BAT公司里面每个名校学生的比例,我因此诞生了看下国内的主要互联网公司里员工的主要学校分布的想法,所以有了这篇文章。
数据总结
- 共200万数据,删去学校和公司为空的还剩8万多条,再删去非主要互联网公司的,还剩将近1万条。
- 分析工具:Python+pandas+BDP个人版
- 分析角度:公司统计、学校统计、职位统计等
数据总体展示
首先是这次筛选的互联网公司和主要城市的统计(如下图),本文都是采用的词云图(字越大说明频率越高)。从图片里面不难看出,常规的BAT、华为、网易等都在此次筛选的数据里面,同时主要的程序猿也主要分布在北京、上海、杭州、深圳等(BAT各自的总部嘛)。
接下来是职位的统计,筛选的大部分都是互联网公司,可以从图中看到上面的图中互联网公司中的不同职位程序猿在知乎的活跃程度。不出意外,分布最多是产品经理、前端等,看来这些人在知乎上比较活跃呀。
既然说到了不同学校的帮派统计,就要先看在我筛选的所有互联网公司各个学校程序员的主要分布情况。北邮,华科,浙大,武汉大学,清华,北大南大,上海交大,西电,哈工大等等的程序猿还是很多的,说明这些程序猿专注代码的同时还经常在知乎上溜达溜达~。
各互联网公司展示
上面的图片只是给数据一个大概的展示,接下来才是每个主要互联网公司内部的不同学校的程序猿主要分布情况,各位看官如果跟我一样面临实习和找工作,可以参考下看看哪里的校友比较多(下面的排名没有顺序,是我随意乱排的)。