EdX由哈佛大学和麻省理工学院于2012年创立,是一个MOOC课程提供和在线学习平台。
理解数据,确定分析思路
数据来源于kaggle上关于2012-2016年Harvard与MIT在Edx所开设在线课程的数据报告,该报告涵盖了在线课程290们、学员450万、学习总时长2800万小时、获得认证学员25万。我们看一下数据,一共有290个在线课堂数据,字段信息23个。发现主要由两方面组成,一是课程(产品)的数据,二是学员(用户)的数据,所以我们分别从这两个维度进行分析:
1、什么类型的课程更受欢迎?哪些课程的需求量较大?
2、人们更喜欢Harvard还是MIT的课?
3、课程的完成度怎么样?
4、全球在学习edX的是什么样的用户?
数据处理
- 重命名列:为了方便将列名换成中文
- 空值:使用开始→筛选发现223行的讲师名缺失,查询官网填上就好
- 一致化处理 单元格拆分:
课程上线的日期格式是MDY(月日年),全部改成我们习惯的YMD(年月日)
课程分析
- 课程需求量(学员数)分析
1.不同课程的学员数占比
从上图可以看出,Computer Science类的课程学员数最多,占比34.42%,Humanities, History, Design, Religion, and Education类的课程学员数最少,只占18.48%。这说明学员对Computer Science一类的课程需求量最大,其次是Science, Technology, Engineering, and Mathematics,再次是Government, Health, and Social Science,需求量最少的是Humanities, History, Design, Religion, and Education。
这是从Edx平台总体来看,当然不同机构内部的课程需求量也会有所不同,下面我们分别看一下每个机构内部不同课程的需求量。
2.同一机构内不同课程的学员数占比(按机构)
Harvard开设的Computer Science类的课程学员数最多,占了40.85%,Humanities, History, Design, Religion, and Education类的课程学员数次之,这两门课程就占了70%。学生对Science, Technology, Engineering, and Mathematics的需求量最少。
MIT的Science, Technology, Engineering, and Mathematics课程的学员数最多,占36.71%(在Harvard最少),其次是Computer Science(在Harvard最多)和Government, Health, and Social Science,最后是Humanities, History, Design, Religion, and Education的学员数最少(在Harvard占比30.12%排第二)
3.同一课程不同机构的学员数占比
从上图得到,同样是Science, Technology, Engineering, and Mathematics类的课程,80%的学员选择MIT,而同样是Humanities, History, Design, Religion, and Education类的课程,80%的学选择Harvard,而且这两科课程分别在机构内部也是比较受欢迎的。
4.不同课程的学员数变化(按月)
学员对课程的需求量除了不同机构有差异以外,不同的时间点也会影响课程的学员数,像某课程去年1月有多少学员,今年不一定会吸引相同的学员数,所以要从时间维度上对不同类型的课程进行需求分析。
总体上Science, Technology, Engineering, and Mathematics类的课程需求量较大,学员对Computer Science类课程的需求量最小。随时间的波动较大,为了方便观察,下面我们对4种课程分别分析。
5.同一课程的学员数变化(按月)
从上图可以看出,Computer Science这类课程的学员数变化有明显的周期性,在每年的1月份左右学员数达到峰值,表明该课程的需求量在1月份前后最大。其他学科的课程未发现有明显的周期性,可能数据量较小。
- 课程完成度分析
得到认证(获得证书)我们就认为他完成了课程,从上述描述统计可以看出完成课程的学员平均占比只有7.78%,而完成了50%课程的学员数还不到该课程学员数的1/4,也就是说绝大多数学员对课程的完成度都不高,制成箱线图如下:
学员分析
- 学员性别分析
对男性占比和女性占比分别求平均值,发现总体上听课的学员中男性占了2/3,大部分是男性学员。下面再看一下不同课程的男女性差异。
女性大多数更喜欢Humanities, History, Design, Religion, and Education类的课程,对Computer Science类课程的兴趣最低。而82%的男性喜欢Computer Science课程。Humanities, History, Design, Religion, and Education类的课程男女占比差别不大,其他三门课程男性占比远超过女性。
- 学员年龄分析
从上图可以看出平台上的学员年龄跨度从22-53岁。22-32岁对各类课程的需求量普遍都很大,尤其对计算机科学的课程需求极大,40岁以后对课程基本上没有需求。
-
学员学历分析
Government, Health, and Social Science与Humanities, History, Design, Religion, and Education类型课程的学习者多为学士及以上学历。
结论
- 总体上看,计算机科学类的课程比较受欢迎。分别从两个机构看,Harvard的课程中人文、设计、宗教和教育类课程占比较大,MIT的课程中科学、技术、工程和数学类课程占比较大,两个学校的课程各有特色,我们可以根据所需的课程类型选择相应的学校学习。
- 从获得认证的平均占比来看,在线课堂学习的完成率不高。这个和线上学习的特点,自身的自律性有关。
- 平台上的学员男性较女性多,大部分都是学士学位及以上,而且男女对课程的偏好不同,可以针对不同群体推荐适合的课程类型。