一站式大数据开发治理DataWorks学习

大数据开发治理平台 DataWorks产品文档
大数据开发治理平台 DataWorks体验馆
一站式大数据开发治理DataWorks使用宝典
一站式大数据开发治理DataWorks学习路径
实验:全链路数据治理
实践:基于DataWorks的大数据一站式开发及数据治理


DataWorks

DataWorks 是什么?

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴大数据建设方法论,支撑数据中台建设,同时与数万名政务、央国企、金融、零售、互联网、能源、制造、工业等行业的客户携手,不断提升数据应用效率,助力产业数字化升级。


DataWorks 业务构架

产品定位

DataWorks致力于为数据开发者、数据分析师、数据资产管理者,打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台,即可实现数据传输、数据计算、数据治理、数据分享的各类复杂组合场景的能力。

同时,DataWorks持续打造符合企业级数仓、数据中台构建要求的功能模块,为企业业务的数字化转型提供支持。

产品受众

从事数据开发、算法开发等岗位的技术人员
从事销售运营、商业智能分析等岗位的业务人员
从事数据安全与合规工作的管理人员
从事数据应用开发的开发人员
把控公司核心数据资产的管理人员

核心能力

基于DataWorks,您可以获得如下能力:

  • 数据集成:复杂网络环境、丰富数据源之间的数据传输与上云。
  • 数据开发:在线批处理、流处理和机器学习等多引擎任务开发,构建复杂的调度依赖,提供开发、生产环境隔离的研发模式。
  • 实时分析(仅公共云):提供基于电子表格的快速、灵活的即时查询。
  • 数据服务:零代码快速生成Serverless化的API。
  • 数据质量:通过表级别、字段级别监控规则定义,第一时间感知脏数据。
  • 智能监控:一键实现复杂工作流的全链路监控报警配置。
  • 数据地图(公共云)/数据管理(专有云):提供强大的数据搜索、数据类目、数据血缘等能力。
  • 数据资产管理(仅专有云):统一管理整个平台的数据表、API等各类数据资产。
  • 数据安全:数据审计、数据脱敏、权限控制等能力。
    应用开发(仅公共云):基于Web端的组件拖拉拽轻松构建数据应用。
  • 工作空间管理(公共云)/平台管理(专有云):从系统层面,为管理者提供对使用DataWorks的用户(成员)权限、DataWorks底层计算引擎配置的管理能力。

总之,使用DataWorks,您不仅可以进行海量数据的离线加工分析,还能完成数据的汇聚集成、开发、生产调度与运维、离线与实时分析、数据质量治理与资产管理、安全审计、数据共享与服务、机器学习、应用搭建等覆盖大数据全生命周期的最佳实践。让数据从采集到展现、从分析到驱动应用得以一站式解决,真正实现数据业务化、业务数据化。


数据治理的概念、需求层次和目标

对于数据治理概念的一些基本理解

当我们在谈论数据治理时,经常会跟数据管理这一概念一起讨论。DataWorks设计数据治理产品功能时,参考的主要也是数据管理领域内的三大理论依据:第一个是数据管理协会知识体系,也就是大家熟知的DAMA、DMBOK2;第二个是DCMM数据管理能力成熟度评估;第三个是信通院的数据资产管理实践白皮书。


数据治理概念

从左右这两张图对比可以看出,DMBOK和DCMM对于数据管理和数据治理的范围和定义是略微有区别的。DMBOK将数据管理划分为十大职能领域,数据治理位于最中间的位置,用于串联其十大职能领域。而DCMM将数据管理定成八大过程域,数据治理是和数据质量、数据安全并列的过程域之一。显然,业界不同的组织和群体对于数据管理和数据治理概念的理解会存在一些出入。

数据治理的需求层次

DAMS有这样的一个描述:在数据管理过程中,要保证一个组织已经将数据转换成有用的信息,这项工作所需要的流程和工具就是数据治理的工作。这里强调两个概念:第一,数据治理是数据管理的一部分;第二,数据治理的核心是流程和与之配套的工具的保障。DataWorks也是参考了这个定义,聚焦于保障与数据资产化配套的数据治理方面的需求来设计产品能力。当然产品能力建设也是一个逐步的过程,DataWorks的功能也在持续扩展中。
根据数据治理的需求,结合在阿里巴巴内部数据治理的实践过程,以及跟外部许多客户和同行的交流,我们发现企业的数字化转型阶段不同,数据治理方面的核心需求是存在差异的。抽象来看,数据治理的需求可以分为五个层次:第一层是时效性,指的是数据产出的及时性要求; 第二层是质量,数据的质量管控,治理覆盖数据的完备性,正确性,准确性等; 第三层是数据的可用,这里主要强调的是数据的共享使用,易查找,好理解,或可复用;第四层是数据安全方面的要求,比如说数据权限的申请和审批,流程的管控,敏感数据的识别和保护,以及合规性要求;第五层是数据的生产、存储和使用的成本优化控制。


五个层次

这五个层次的需求,越下面的需求相对来说越基础,需要优先满足。但随着企业数字化转型过程的加深,上层的需求就会逐步地体现出来。阿里内部也是这样的过程,在十多年前最开始的阶段,阿里优先关注的是数据任务的运行稳定,数据能及时产出,数据是正确的、可用的。当这些需求被很好地满足和保障之后,现阶段阿里内部数据治理最关注的是金字塔顶端的需求,也就是成本的考量。
当然,这五个需求层次,并不是必须逐层演进的。在一个阶段,企业很大可能会同时有不同层次的需求,只是相对而言,它关注的需求重点会有所不同。
这五个需求层级实际上也就定义出了数据治理的一个核心目标,就是企业数字化转型要最大程度地将数据资产化,来挖掘出数据的价值。在这个过程中,要满足产出的及时性,质量可靠,数据易找易用,数据安全可控以及生产经济这五个方面的要求。

数据治理的目标

在数据治理的实施策略上来说,有自下而上和自上而下两种方式。这两种方式相结合的方式在阿里内部实践验证后更行之有效。顶层用来解决全局的数据规划和组织建设,以及制度制定这些问题,为治理提供上层的赋权;而下层聚焦于核心业务流程的梳理、平台工具和运营体系的构建,为数据治理落地提供支撑。


数据治理的目标

通过自上而下和自下而上密切的结合,随后循环的演进,来进行数据治理的推动。而数据治理的需求分层,也为数据治理给出了一个启示,我们可以整体去规划数据治理的蓝图,但是需要分阶段去实施。在特定阶段,企业数据治理的诉求重点是有所区别的,建议结合企业的实际情况,关注重点层次的诉求,逐步迭代演进。

数据治理概要总结

一、数据治理是数据管理的一个核心组成部分,是数据管理过程中的流程和工具的一个支撑。
二、企业在数字化转型的不同阶段,对数据治理的需求层次是有区别的,共有五个需求层次。
三、需要一个统一的开发和治理平台来减少重复工作,提高扩展性。
四、数据治理治理的对象是数据和产出数据的任务,DataWorks的核心理念是基于数据来进行数据治理工作,用工具和平台能力服务好使用者,来推动数据治理的落地。
五、平台和引擎的技术演进,尤其是MaxCompute这个底层引擎技术的演进,是数据治理落地的一个催化剂,底层引擎的优化工作,对于成本优化是有着关键性的影响。
六、DataWorks提供了极好的开放性,如果大家有自定义数据治理方面的需求,可以通过DataWorks 的开放API、开放数据和开放消息来获取相应的数据进行自定义治理。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容