
1、ETL数据架构层次 2、建表规范 3、命名规范 4、作业开发规范 注释: 作业说明是一种注释,位于作业最开始部分。作业说明有助于提高代码的可...
Spark RDD 编程指南(官方文档中文版+补充) 1.总览 Spark 提供的主要抽象是弹性分布式数据集(RDD),它是跨集群节点划分的元素...
目录 [toc] 版本 Scala 版本:2.11.8 spark 版本:spark-2.4.4-bin-hadoop2.7.tgz 一、创建S...
关于DataX 增量更新实现 注:参考来源文章 增量更新总体思路:从目标数据库读取一个最大值的记录,可以是DataTime 或者 RowVers...
文档参考:https://docs.scala-lang.org/tutorials/scala-with-maven.html new pro...
1.理论基础 需要注意的是: 一个source可以对接多个channel 一个sink只能对接一个channel 实现一个数据流的需求关键点就在...
1. Flume 简介 Flume 是一个分布式的海量日志采集,聚合,转移工具。 大数据常用数据处理框架 这里只是给flume一个定位,清楚fl...
准备要导入的数据 mysql创建表并插入数据 准备要导出的数据 customer.csv 上传到hdfs 任意目录 启动相关服务 首先保证SQO...
准备工作 1.检查各项服务是否已正常启动 [x] hdfs启动【start-dfs.sh】 [x] yarn启动【start-yarn.sh】 ...