登录注册写文章

毕设笔记

毕设笔记

系统安装

1. 安装jdk

2. 安装hadoop

3.安装mysql

4.安装hive

5.安装scala-2.11.12

6.安装presto

把presto-client的jar改为命令文件

7.安装spark-2.4.7-for-scala-2.11

（注意对应的scala版本以及hadoop版本以及hdfs系统的文件权限问题）

8.安装flink-1.11.3--for-scala-2.11

9.在windows测试虚拟机的hadoop开发

测试spark：

测试flink：

10.基于Maven开发，导入delta lake框架开发测试

11.从kaggle下载一些超市的数据集合，包裹一些会员信息，订单小票，库存信息以及用户行为等。

不同的数据表格可能来自不同的源，为了使数据有关联度，我有进行一定的预处理

12.把数据录入到数据库

一般来说，业务数据的来源不应该是这样的，由于模拟需要，所以先这样准备数据，datagrip软件提供把csv格式文件导入数据库相关表格的功能，我也有编写具体代码模拟数据导入到数据库的过程

13.以delta lake的方式打开spark

spark一般会有一个对应的delta lake版本在自己的包内，但我用比较新的delta lake版本，这里交互式进入成功，实际上对于开发人员来说，交互式已经是很好的处理数据手段，但接下来仍尝试编写代码对数据进行操作，时间充裕的话尝试做有一定交互能力的界面

14.编写代码进行数据迁移，市面上较为常用的数据迁移方式主要是dataX或者用squoop数据迁移到hdfs，我这里直接用框架读取数据库内容，模拟分库的场景读取

landing层是数据着陆层，主要是负责数据源的保存，一般不作数据处理

读取的订单数据

15.连接到spark集群

成功连接

spark貌似对ip地址和主机名称有很高的区分度，配置spark-env.sh时要小心处理，否则会拒绝连接

16.hdfs下创建/tmp/spark-events文件夹，充当事件日志文件夹

17.把delta lake和iceberg的jar包下载并放到spark的jars文件夹内

18.编写代码把相关数据源的表格同步到数据湖

（以下未完成，后续打算完善的程度）

19.不同表格之间的增删查改以及join操作

20.尝试做一些批量数据的定时任务或者用flink做一些流式数据的处理

21.用输出的表格做一些简单的可视化

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

【经验】数据仓库和大数据系统框架及常见问题
1. 摘要笔者在学习过程中遇到的大数据框架，系统和数据库遇到的一些问题总结和知识汇编，也分享给大家一起学习。 2...
笔名辉哥阅读 17,692评论 0赞 5
阿里云E-MapReduce团队：37篇大数据之路干货分享，我收藏了
01.MySQL：互联网公司常用分库分表方案汇总文章简介：不管是IO瓶颈，还是CPU瓶颈，最终都会导致数据库的活...
lxg阅读 4,097评论 0赞 1

2018-07-18 先发影响力
推荐指数： 6.0 书籍主旨关键词：特权、焦点、注意力、语言联想、情景联想观点： 1.统计学现在叫数据分析，社会...
Jenaral阅读 11,032评论 0赞 5
2018-7-18，晚上，7:00-8:30，注音标3-1-3，口语滚动复习。
xin_8008阅读 10,121评论 1赞 2
有效教学（摘记八）——崔允漷
第八章教学评价第一节从考试文化走向评价文化一、教学评价的早期发展（一）传统考试阶段 ★《学记》——我国最...
Dreamerr__阅读 10,811评论 1赞 6

友情链接更多精彩内容

赞1赞

赞赏

手机看全文