从零构建数据中台平台

从零构建数据中台平台

Overview

数据中台平台从技术角度,需要支持以下维度的功能:

  • IAAS(CDH)
  • 数据同步
  • 数据开发
    • 数据开发IDE
    • 工作流调度引擎
  • 数据运维
  • 数据治理
    • 数据质量
    • 元数据管理
  • 数据安全
  • 平台权限
  • DevOps
  • 监控报警
  • 数据服务
  • BI可视化展示

后续会使用社区开源系统从零构建数据中台平台,帮助传统企业以及中小型互联网公司更好的数字化转型。

IAAS
底层引擎支撑
  • 离线开发
    • CDH(Hadoop发行版,包括Hive、Spark、HDFS、YARN、MR、ZK等基础组件)
  • 实时开发
    • Flink
    • 数据源:Kafka、关系型数据库(主要是Mysql)
    • 目标源:Kafka、Hbase、ES
数据同步

数据同步核心解决的问题是,把传统关系型的全量数据以及增量数据同步到Hadoop Hive库中或者是Kafka中,以便于根据离线或实时数仓场景做具体的使用。目前针对离线以及实时数仓场景,数据同步主要有如下两个比较稳定的插件:

  • DataX(离线场景)
  • Flume(实时场景)

如果能够做到把DataX和Flume做整合,给上层提供统一的数据同步接口会更好。

数据开发

这块涉及两个重要环节。数据开发IDE、工作流调度引擎。

数据开发IDE
  • 支持各种脚本、SQL IDE功能。
工作流调度引擎

可选的引擎主要有如下四种:

  • Easy Scheduler
  • Azkaban
  • Oozie
  • Airflow
数据运维

能够支持对数据开发运行的任务实例进行:

  • 大盘metrics展示
  • 补数据
  • 重跑任务上下游
  • 基线报警&报警配置
数据治理

数据治理主要涉及两个大的功能:

  • 数据质量(DQC)
  • 元数据管理
数据质量(DQC)

DQC这块开源比较好的选择是eBay开源的Griffin。

数据质量在数据科学领域是至关重要的。在大数据时代,企业决策调整,商机发现等越来越依赖于大数据的数据分析和数据挖掘,而数据质量的保证是所有一切数据分析和数据挖掘的基础。

Apache Griffin是一个应用于分布式数据系统中的开源数据质量解决方案。在Hadoop, Spark, Storm等分布式系统中,提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题

元数据管理

这块可选的有三种:

  • WhereHows
  • Data-Hub
  • Atalas

初定Atalas,具体的对比可以参考后续markdown文档。

元数据管理核心在更好的维护数据血缘关系,能够支持表级别、字段级别血缘关系。便于更好的数据监控、问题追朔、成本分析,为后续的问题排查、减少数据污染、数据成本分析&优化、数据资产运营等提供支撑。

数据安全

数据安全涉及几大类:

  • 底层Hadoop层面存储、计算能力的数据安全,这块可以用apache的Kerberos或者Ranger解决。
  • 组件之间通信协议数据安全:
    • 工作流调度Master与Slave之间通信协议(主要是HTTP)数据的加密,以及安全认证。这个主要是混合部署模式下非常有价值和必要。
    • 数据服务对外暴露API需要有访问安全控制,以及根据用户需要对数据进行加密。
平台权限

多用户&多租户资源隔离
Kerberos或Ranger只解决Hadoop层面多用户的隔离。但是对于数据中台平台,目标的对象不仅仅是Hadoop的存储、计算能力,而是数据开发(包括实时和离线开发)这个重要环节。所以的DQC、元数据管理、数据安全都是在努力为它服务。

一个公司,拥抱数据中台,就自然而然意味着数据中台平台是整个公司数字化转型的基础设施。

就自然而然会使得如下职责人员在同一个平台协作:

  • 数仓开发(实时、离线)
  • 大数据运维(主要是涉及数据运维,以及数仓项目多环境发布)
  • 数据分析
  • BI
  • 业务方(主要是使用数据服务提供的API接口)
  • 运营(主要是使用HQL、Adhoc场景取数,以及使用BI报表)

所以,使得多租户权限控制和隔离非常重要。

多租户隔离需要做到几点:

  • 数据源使用权限的严格限定;
  • 开发任务访问、执行权限的严格限定;
  • 数据服务对外暴露API权限的严格限定
DevOps

数据中台平台在DevOps场景,主要是多环境支持的需求。这个其实前期可以做的比较弱,后期可以慢慢加强。

核心解决问题是多套环境以及规范测试开发、上线流程。

严格意义上,一个完整的上线规范包括:测试 -> 预发 -> 生产,这套流程是需要在我们的数据中台平台上完成的。我们平台需要有套机制帮助用户更好的:

  • 规范流程
  • 提供预发、生产变更机制
  • 提供预发、生产回滚机制
  • 多线下版本维护
  • 细粒度权限控制
  • 监控&报警支持
通用监控报警服务

需要有套完整的监控报警服务,能够根据自定义上报上的数据或者是采集的数据,根据配置的阈值以及规则进行有效的报警,并对报警的情况进行监控

数据服务

数据服务主要解决问题是:把底层关系型数据库的数据API化,使得上层的应用能够更好的使用数据中台平台开发好的数据。

这块涉及两个问题要解决:

  • SQL Proxy:具体选型待定
  • API官网:具体选型待定
BI可视化

BI可视化解决问题是把底层各种关系型数据库数据、多维聚合数据图表化展示。

主要支持数据源

  • 传统关系型数据库
  • Kylin等多维离线聚合OLAP引擎
  • Hbase等NoSQL场景
  • ES

丰富图表类型支持
要求尽量支持如下图表类型:

  • 表格
  • 柱状图
  • 饼图
  • KPI
  • 漏斗图
  • 桑基图
  • 雷达图
  • 气泡图
  • 对比图
  • 标签云
  • 热点图
  • 关系图
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容