流程:
1.Python采集网易云音乐歌手、歌词、音乐、评论等约10-20万+海量数据,存入mysql数据库;
2.使用pandas+numpy/MapReduce对mysql中四类数据进行数据清洗,写入.csv文件并上传至hdfs(含评论NLP文本分类/lsm情感分析);
3.使用hive建库建表,导入.csv数据集;
4.一半分析指标使用hive_sql完成,一半分析指标使用Spark之Scala语法完成;
5.将分析结果使用sqoop导入mysql数据库的指标表;
6.使用Flask+Echarts搭建可视化大屏界面;
1.png
2.png
3.png
4.png
5.png
6.png
7.png
8.png
9.png
10.png
11.png
12.png
13.png
14.png
15.png
16.png
2.png
3.png
4.png
5.png
6.png
7.png
8.png
9.png
10.png
11.png
12.png