大数据专业建设方案
行业现状
据相关资料显示,随着互联网、移动互联网、物联网等信息通信技术及产业的不断发展,全球数据量呈爆发式增长态势。至此,IDC研究报告指出,根据ZDNET的统计预计到2020年,中国产生的数据总量将超过8.5ZB,是2013年的10倍。
此外,值得一提的是,大数据市场空间巨大的同时,其产业规模也有望迎来快速增长。据前瞻产业研究院发布的《中国大数据产业发展前景与投资战略规划分析报告》统计数据显示,2015年我国大数据产业规模已达2800亿元,截止至2017年我国大数据产业规模增长至4700亿元,规模增速进一步提高至30.6%,初步测算2018年我国大数据产业规模将达6200亿元左右,同比增长31.9%。并预测在2020年我国大数据产业规模增长突破万亿元,达到了10100亿元,同比增长26.3%。
专业现状
从大的范围看,大数据人才培养就是学位培养和应用培训两类。学位培养需要设置完整的培养体系,包括:培养方案、课程体系、师资力量、实验条件等;应用培训相对比较简单,主要注重的是技能培训,掌握大数据分析工具,例如Hadoop、Spark、Hive等,熟悉大数据应用案例等。
培养方案不精准
大数据是一门交叉学科,除了计算机相关知识,还需要有统计学、数学基础以及一定业务知识,结合院校优势学科建设有特色的“大数据+”专业无疑是院校最好的选择。然而,目前大数据专业的课程设置并没有参考和标准,如何根据院校情况制定精准的人才培养方案,设置对应的课程体系并且与院校师资相契合,仍是大多数高校需要考虑的。
教学资源不完善
对于很多高校教师来说,大数据并不像很多传统的理工科学科那样有完善的教学资源,目前并没有统一的大数据教材,并且缺乏与课程相契合的PPT、视频等课件,老师准备相关的教学资源需要花费大量的时间与精力,并且由于不同课程由不同老师负责,无法保证整个大数据知识体系能够完美衔接。
实训环境不完备
大数据专业的学生需要从原理、技术与应用等不同的角度掌握大数据平台搭建的方法与原理、挖掘的算法与技巧、分析的理论与分析知识、存储的工具与要求。学生要很好地掌握这些课程,除了课堂学习之外,也需要通过实验来加深理解和提高实际应用操作能力。调查表明,大数据的环境搭建方法、挖掘算法、分析知识、数据存储、运算环境以及用于实验的大数据生命周期类真实案例都无法在我国高校现有的实验室中完成。
项目案例不丰富
大数据是一门综合性较强的学科,除了理论基础知识以外,还需要接触真实数据并学习一些项目案例来将理论知识与实际应用相结合,为了训练大数据人才,需要各种各样的数据环境,在实践中总结经验,训练发现问题和解决问题的能力。数据环境是要有来源多样、类型多样的数据集合,并且数据规模要足够大。然而大多数高校都没有相关的数据及大数据项目案例来让学生学习。
教学分析不智能
在教学中如何掌握学生们的学习情况一直都是老师们非常关心的。通过传统的课堂提问、实验报告等方式去分析了解学生学习情况不仅不够精准,而且会花费大量的时间,另老师无法将精力投入到教学内容及管理优化等方面,如此恶性循环不但无法掌握学生的准确情况,还会给老师带来大量的不必要的教学压力。
建设目标
针对理、工、商等不同专业结合院校优势学科为高校量身定制符合高校特色的个性化人才培养方案,以专业必修课为基础、以大数据专业知识为核心、以大数据进阶课为方向、以数据及项目案例为最终出口,包含大数据基础、数据采集、数据存储、数据处理、数据分析、数据挖掘、数据可视化、人工智能、大数据案例等完整的教学资源,让学生通过实验教学熟练掌握大数据相关技能,并且通过项目案例熟悉真实大数据处理流程,全面综合提升学生能力。
教学资源
红亚大数据教学平台基于高校的教学场景,运用云计算技术,集课程实验、算法实战、数据科研、考试于一体的实训平台,平台课程共计800多个任务。学生可通过浏览器访问使用,可在学校任何一个网络可达的场所进行学习。
系统课程学习模式包括实验平台、项目路径和职业路径,满足不同场景的教学需求。在教学管理方面,平台自带人工智能课程推荐功能,可为学生提供个性化课程推荐及AI课程助手,助力学生定向就业。还可以通过大数据分析,自动生成学业报告,为学生就业提供桥梁,并作为教师教学的得力助手,为高校的学生能力培养及教师的工作提供强有力的支持。
实验平台
该模式以知识体系为核心,将大数据内容按照不同类型的知识模块进行分类。如大数据基础体系下包含了:Linux基础、编程基础、数学基础、数据库基础等课程;大数据进阶体系包含了:Hadoop、Spark数据处理、R语言、Python数据处理、SAS数据分析等课程;该模式围绕一个内容展开了多方面知识的学习,与现在教育方式一致,保留了师生们传统的学习授课方法。不仅如此,为满足学校的已有的课程教学资源,老师可以自定义实验内容及实验镜像,将文本类、实操类、视频类课件上传到教学平台上满足教学需求。
算法练习
算法集提供了一个环境,用户可以在里面写代码、运行代码、查看结果,并在其中可视化数据,并与平台中的数据集功能进行交互式使用,可直接调用平台当中的数据集用于算法在实际数据中的实践测试。鉴于这些优点,它能帮助他们便捷地执行各种端到端任务,如数据清洗、统计建模、构建/训练机器学习模型等。
算法集的一个特色是允许把代码写入独立的cell中,然后单独执行。这样做意味着用户可以在测试项目时单独测试特定代码块,无需从头开始执行代码。虽然其他的IDE环境(如RStudio)也提供了这种功能,但就个人使用情况来看,算法集的单元结构是设计的最好的。
算法集的优势还体现在灵活性和交互性上,除了最基础的Python,它还允许用户在上面运行R语言。由于它比IDE平台更具交互性,教师也更乐于在各种教程中用它来展示代码。
在线考试
理论考核采用在线考核模式,将单选题、多选题、判断题、填空题、简答题添加在试卷上,每一道题的题目、正选、分值等内容可由管理员自行设置,简答题题采用关键词进行自动判分,同时也可以由教师手动判分。
实践测评考核模式是以实验操作过程为考核点,也称之为实操题考核模式,由教师在管理端设置考核步骤、分值权重,平台提供配套的实验考试环境。学生在实际操作过程中遇到的考核点,需要根据实际结果去填写,到最后统一汇总分数。该模式突破了传统的考核模式,通过实操的方式来加深印象,巩固大数据知识。