本节重点讲解怎么使用 OneData 这套体系和相配套的工具实施数据系统的模型建设,在讲解中会以阿里巴巴的具体业务进行说明
指导方针
首先,在建设大数据数据仓库时,要进行充分的业务调研和 求分析。这是数据仓库建设的基石,业务调研和需求分析做得是否充分直接决定了数据仓库建设是否成功。其次,进行数据总体架构设计,主要是根据数据域对数据进行划分;按照维度建模理论,构建总线矩阵、抽象出业务过程和维度。再次,对报表需求进行抽象整理出相关指标体系,使用 OneData 工具完成指标规范定义和模型设计。最后,就是代码研发和运维。本文将会重点讲解物理模型设计之前(含)步骤的内容。
实施工作流
(1)数据调研
业务调研
整个阿里集团涉及的业务涵盖电商、数 娱乐、导航(高德)、动互联网服务等领域。各个领域又涵盖多个业务线,如电商领域就涵盖类(淘宝、天猫、天猫国际)与 类(阿里巴巴中文站、国际站速卖通)业务。数据仓库是要涵盖所有业务领域,还是各个业务领域独自建设,业务领域内的业务线也同样面临着这个问题。所以要构建大数据数据仓库,就需要了解各个业务领域、业务线的业务有什么共同不同点 ,以及各个业务线可以细分为哪几个业务模块,每个业务模块具体的业务流程又是怎样的。业务调研是否充分,将会直接决定数据仓库建设是否成功。
在阿里巴巴, 般各个业务领域独自建设数据仓库,业务领域内的业务线由于业务相似、业务相关性较大,进行统一集 中建设。
如表 9.3 所示是粗粒度的 类电商业务调研,不难发现几个功能块/业务线除了淘宝无供应链管理外,其他几乎一样。
需求调研
可以想象一下,在没有考虑分析师、业务运营人员的数据需求的情况下,根据业务调研建设的数据仓库无疑等于闭 门造车。了解了业务统的业务后并不代表就可以进行实施了,此刻要做的就是收集数据使用者的需求,可以去找分析师、业务运营人员了解他们有什么数据诉求,此时更多的就是报表需求。
需求调研的途径有两种: 是根据与分析师、业务运营人员的沟通(邮件、 IM )获知需求: 是对报表系统中现有的报表进行研究分析通过需求调研分析后,就清楚数据要做成什么样的。很多时候,都是由具体的数据需求驱动数据仓库团队去了解业务系统的业务数据,这两者并没有严格的先后顺序。
举例 分析师需要了解大淘宝(淘宝、天猫、天猫国际) 级类目的成交金额。当获知这个需求后,我们要分析根据什么(维度)汇总,以及汇总什么(度量),这里类目是维度,金额是度量:明细数据和汇总数据应该怎样设计?这是一个公用的报表吗?是需要沉淀到汇总里面,还是在报表工具中进行汇总?