//
饿了么数据仓库治理及数据使用
http://www.infoq.com/cn/presentations/data-warehouse-management-and-data-use-of-eleme
概要
饿了么数据仓库从零开始到数据架构建设,从最初的快速响应业务需求,到探索适合饿了么业务本身的模型建设,满足越来越多业务人员对数据的需求,以及未来数据架构的探索。包含数据仓库架构,元数据管理,自动化任务配置,数据质量检验体系搭建。
主要讲:数据仓库和数据治理方面做的事情
三个方面:
1)数据仓库
2)支撑数据仓库,做的一些工具来提升我们开发人员的工作效率.
3)数据使用方面的探索
14年订单成交量1.1亿
14年之前没有数据仓库概念的,
--最早: 来个需求查db,来个需求就查DB
--后台: 中间加了个PostgreSQL, psql每天晚上会实时同步db的数据.有几个python做的预热脚本来处理数据, 13年之前业务量也比较单一,业务量比较小时还是能满足的他们需求的,也跑得比较爽.
但是到了13年年底时,原有架构不能满足业务增长需求了, 一些同步数据也经常被delay, 数据处理脚本也处理不过来了,--需要一套稳定可靠的数据处理架构来为我们各个业务线来提供数据
底下是各种数据源,
中间有一个数据抽取/推送系统,
为我们的hadoop离线平台 和 storm实时平台提供数据
结果推送到缓存和DB里(mysql , hbase等等)
最上面是数据应用(dashboard, API, 数据产品等)
右边是我们自己开发的调度系统
//
在开始搭建数据仓库之前,做了两件事情
1)规范化/标准化, 有两个部门,他们分别定义了自己的指标,但是等到汇报时,我们发现他们的数据是不一致的, 他们自己定义了一些指标 但是没有在两个部门之间互通. 需要一套统一的规范来制定我们的数据口径是怎样的.
//3:40
进来做的第一件事 就是把各个业务线的负责人拉起来,去确定各个业务线的核心指标是哪些,数据口径是怎样的,怎么样来统计他们.
2)建立统一的日志搜集框架,最开始他们的数据是分散在各个业务服务器上的,没有统一的维护和管理, 用flume在各个业务服务器上手机数据,用kafka做一个消息分发
中间也做了宽表,