流程
- selenium爬取慕课网的课程、章节、评论数据集分别存两个地方:mysql数据库[便于后期选装推荐、预测算法、知识图谱、后台]、.csv文件;【需要注意的是慕课网评分不准,需要使用深度学习知识NLP模型进行文本分类、情感分析!!!】
- 将.csv上传到hdfs中,并使用hive建表后导入.csv数据;
- 9个指标,一半使用spark/scala去做实时计算分析。一半使用hive_sql进行分层离线处理计算,并使用sqoop把hive分析结果导入mysql;
-
最终使用flask+echarts制作可视化统计大屏图;
1.png
2.png
3.png
7.png
8.png
创新点
NLP模型进行文本分类情感分析、Python爬虫采集50万+数据集、可视化大屏、spark+hive离线计算实时计算混合开发双实现防止被导师喷
注意:如果导师或者你个人还觉的这个项目工作量不够,可以选装推荐系统、预测系统、知识图谱、后台管理,我保证无缝衔接1秒内安装+选装成功!因为下面的系统和现在的可视化系统是姊妹关系,共用数据库表、CSV等,直接可以对接上!如下↓
1.png
2.png
3.png
4.png
5.png
6.png
10.png
12.png
15.png
23.png
24.png
25.png