大数据时代,数据的体量结构、获取方式、挖掘处理、分析呈现等等方面都发生了变化,由此衍生出大数据技术,包括数据的采集、存取、清洗、挖掘、可视化等等,产生了新的人才需求以及职业方向,并且处于紧缺状态,来自麦肯锡全球研究所的另一项调查显示,预计到2018年,美国将面临大约150万大数据专家的短缺,据国内大数据权威专家估算,5年内,大数据人才缺口也将高达130万左右。巨大的人才需求、仍处于上升阶段的职业前景也导致了大数据培训的火热,目前在在线课堂、论坛、线下机构纷纷开设大数据方向的培训课程,且应者如云。那么哪些课程或者哪些方向最受欢迎呢?本文以ppv课(国内领先的大数据学习社区)网站为例,该网站的免费课程频道有着较为齐全课程分类(见图1),并且积累了一定的用户学习数据。通过python软件爬取所有课程的学习人数、时长、类别等网络数据(见图2),可以一窥当前大数据时代学习群体的培训需求。
每个课程的信息如下:
采用python的xpath查询和处理HTML / XML文档,针对网页链接与翻页特点,构建函数以及数据清洗等,最终获取如下数据:
再通过数据截取、封装、可视化处理,得到了每一课程类目下的平均学习人数(类目下所有课程学习人数相加/该类目课程数量),见下图:
如图,概率与统计课程的平均学习人数最多,达到3000以上,这说明学习者对大数据的基础统计理论的学习需求较大;其次是R语言、Mysql、SPSS等,说明了大数据常用的软件与数据库的学习需求也较高。
分类比较,比如在大数据统计软件方面的平均学习人数上,由上图可以看出,R语言>SPSS>Python>SAS>Excel>Matlab,后三者在大数据统计技术上已稍显落后(spss在开发出数据挖掘模块),且R、Python是目前大数据分析下最火的两大统计软件,相应的学习需求也高;数据库方面:Mysql>Nosql>Sql>Oracle,Mysql平均学习人数最多且远远超过其他数据库,作为大数据目前最常用的数据库存储工具,因此会获得如此高的关注度;理论方面:概率统计>机器学习>数据挖掘,说明学习者对基础理论的需求还是比较高,由于大数据技术是计算机与数据统计等内容的结合,很多计算机从业者缺乏统计理论知识以及初学者也要从最基础的理论学起,这导致概率与统计的学习需求遥遥领先,从侧面也说明了在大数据领域统计理论的缺失或不足较为明显。对于大数据里较火的软件平台——Hadoop,平均学习人数处于不高不低的状态,这是由于大多数大数据学习者还处于初级水平,对Hadoop这一高级应用技术还缺乏了解,所以学习需求没那么高。
我们还可以获取到每一课程类目下的所有课程的学习人数,如SAS类目所有的课程学习人数:
从上图可以看出,关于初级、入门类的课程需求还是最高。
那么,课程学习人数与课程时长有无关联?构造所有课程学习人数与学习时长的散点图:
可以看到二者并无明显的相关关系。
我们还可以将所有课程按照职业方向、难以程度来分类,获取相关信息,如不同职业方向平均课程学习人数的占比情况:
数据分析师、大数据工程师、数据挖掘工程师三大方向的学习需求并无明显差异,其中数据分析师略占优势,说明对于数据分析的学习需求较高。
综合看来,大数据时代学习者对于初级、入门课程的关注度还是比较高,对于常用的软件R、Python以及统计、数据分析的学习需求相对集中。lqR��eC�~l�0R