开发技术:
spark hadoop hive 装杯显摆虚拟机Linux敲命令炫酷吊打 flask echarts sqoop scala hdfs yarn mysql selenium爬虫框架等;
流程:
1.采集雪球网约50万股票数据存入mysql;
2.使用pandas+numpy或hadoop+mapreduce对mysql中的数据进行数据清洗并转存.csv文件上传到hdfs;
3.使用hive建表建库导入hdfs中的.csv数据集;
4.一半指标使用hive_sql进行离线计算分析,一半指标使用Spark之Scala语法进行实时计算分析;
5.分析结果使用sqoop导入mysql数据库;
6.使用flask+echarts搭建可视化大屏界面;
创新点:
Python爬虫、海量数据、可视化大屏、实时+离线计算双实现、spark+hive离线计算实时计算混合开发双实现防止被导师喷
如果他(导师)还是狂喷不止,继续选择以下的系统,他们可以选装牛鼻功能!
可选装项目模块如下:
1.推荐系统(4种深度学习推荐算法 协同过滤基于用户 基于物品 SVD神经网络 MLP)。附带AI、支付、短信、lstm情感分析。
2.预测系统(KNN CNN RNN卷积神经预测 K-means 线性回归)。
3.知识图谱neo4j可视化关系网络图。
4.后台管理系统。
注意:以上1234部分均采用springboot+vue.js前后端分离架构!!!