Edx在线课堂平台数据分析

EdX由哈佛大学和麻省理工学院于2012年创立,是一个MOOC课程提供和在线学习平台。

理解数据,确定分析思路

数据来源于kaggle上关于2012-2016年Harvard与MIT在Edx所开设在线课程的数据报告,该报告涵盖了在线课程290们、学员450万、学习总时长2800万小时、获得认证学员25万。我们看一下数据,一共有290个在线课堂数据,字段信息23个。发现主要由两方面组成,一是课程(产品)的数据,二是学员(用户)的数据,所以我们分别从这两个维度进行分析:

1、什么类型的课程更受欢迎?哪些课程的需求量较大?

2、人们更喜欢Harvard还是MIT的课?

3、课程的完成度怎么样?

4、全球在学习edX的是什么样的用户?

数据处理

  • 重命名列:为了方便将列名换成中文
  • 空值:使用开始→筛选发现223行的讲师名缺失,查询官网填上就好
2.jpg
  • 一致化处理 单元格拆分:

课程上线的日期格式是MDY(月日年),全部改成我们习惯的YMD(年月日)

数据☞分列☞下一步☞下一步☞日期(MDY)

课程分析

  • 课程需求量(学员数)分析

1.不同课程的学员数占比


从上图可以看出,Computer Science类的课程学员数最多,占比34.42%,Humanities, History, Design, Religion, and Education类的课程学员数最少,只占18.48%。这说明学员对Computer Science一类的课程需求量最大,其次是Science, Technology, Engineering, and Mathematics,再次是Government, Health, and Social Science,需求量最少的是Humanities, History, Design, Religion, and Education。

这是从Edx平台总体来看,当然不同机构内部的课程需求量也会有所不同,下面我们分别看一下每个机构内部不同课程的需求量。

2.同一机构内不同课程的学员数占比(按机构)

Harvard开设的Computer Science类的课程学员数最多,占了40.85%,Humanities, History, Design, Religion, and Education类的课程学员数次之,这两门课程就占了70%。学生对Science, Technology, Engineering, and Mathematics的需求量最少。

MIT的Science, Technology, Engineering, and Mathematics课程的学员数最多,占36.71%(在Harvard最少),其次是Computer Science(在Harvard最多)和Government, Health, and Social Science,最后是Humanities, History, Design, Religion, and Education的学员数最少(在Harvard占比30.12%排第二)

3.同一课程不同机构的学员数占比

从上图得到,同样是Science, Technology, Engineering, and Mathematics类的课程,80%的学员选择MIT,而同样是Humanities, History, Design, Religion, and Education类的课程,80%的学选择Harvard,而且这两科课程分别在机构内部也是比较受欢迎的。

4.不同课程的学员数变化(按月)

学员对课程的需求量除了不同机构有差异以外,不同的时间点也会影响课程的学员数,像某课程去年1月有多少学员,今年不一定会吸引相同的学员数,所以要从时间维度上对不同类型的课程进行需求分析。

总体上Science, Technology, Engineering, and Mathematics类的课程需求量较大,学员对Computer Science类课程的需求量最小。随时间的波动较大,为了方便观察,下面我们对4种课程分别分析。

5.同一课程的学员数变化(按月)




从上图可以看出,Computer Science这类课程的学员数变化有明显的周期性,在每年的1月份左右学员数达到峰值,表明该课程的需求量在1月份前后最大。其他学科的课程未发现有明显的周期性,可能数据量较小。

  • 课程完成度分析
开发工具☞excel加载项☞分析工具库。数据☞数据分析☞描述统计

得到认证(获得证书)我们就认为他完成了课程,从上述描述统计可以看出完成课程的学员平均占比只有7.78%,而完成了50%课程的学员数还不到该课程学员数的1/4,也就是说绝大多数学员对课程的完成度都不高,制成箱线图如下:

学员分析

  • 学员性别分析

对男性占比和女性占比分别求平均值,发现总体上听课的学员中男性占了2/3,大部分是男性学员。下面再看一下不同课程的男女性差异。

女性大多数更喜欢Humanities, History, Design, Religion, and Education类的课程,对Computer Science类课程的兴趣最低。而82%的男性喜欢Computer Science课程。Humanities, History, Design, Religion, and Education类的课程男女占比差别不大,其他三门课程男性占比远超过女性。

  • 学员年龄分析

从上图可以看出平台上的学员年龄跨度从22-53岁。22-32岁对各类课程的需求量普遍都很大,尤其对计算机科学的课程需求极大,40岁以后对课程基本上没有需求。

  • 学员学历分析

Government, Health, and Social Science与Humanities, History, Design, Religion, and Education类型课程的学习者多为学士及以上学历。

结论

  1. 总体上看,计算机科学类的课程比较受欢迎。分别从两个机构看,Harvard的课程中人文、设计、宗教和教育类课程占比较大,MIT的课程中科学、技术、工程和数学类课程占比较大,两个学校的课程各有特色,我们可以根据所需的课程类型选择相应的学校学习。
  2. 从获得认证的平均占比来看,在线课堂学习的完成率不高。这个和线上学习的特点,自身的自律性有关。
  3. 平台上的学员男性较女性多,大部分都是学士学位及以上,而且男女对课程的偏好不同,可以针对不同群体推荐适合的课程类型。
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容