流程
- selenium爬取慕课网的课程、章节、评论数据集分别存两个地方:mysql数据库[便于后期选装推荐、预测算法、知识图谱、后台]、.csv文件;【需要注意的是慕课网评分不准,需要使用深度学习知识NLP模型进行文本分类、情感分析!!!】
- 将.csv上传到hdfs中,并使用hive建表后导入.csv数据;
- 9个指标,一半使用spark/scala去做实时计算分析。一半使用hive_sql进行分层离线处理计算,并使用sqoop把hive分析结果导入mysql;
-
最终使用flask+echarts制作可视化统计大屏图;
创新点
NLP模型进行文本分类情感分析、Python爬虫采集50万+数据集、可视化大屏、spark+hive离线计算实时计算混合开发双实现防止被导师喷