数据仓库涉及到的知识非常广,一个企业级的数据仓库可能需要一个大型团队耗费数年时间才能建设完成。下面这个图可以作为一个总览:
从上图可以看出,数据仓库的建设过程其实是技术驱动的,对于数据产品经理来说,其实需要了解的只是基础的概念,这些网上资料都很多了,下面大概讲讲自己的理解。
1、建模方式:分Inmon建模和Kimball建模,分别的是自上而下和自下而上的建模方式。自上而下建模的意思是首先建立一个整体的的企业数据仓库(EDW),再细分成对应的数据集市(DM),而自下而上建模的意思自然是先建立一个大概的数据规范后,不建立整体的企业数据仓库,而是先建立数据集市,然后再根据数据规范整合成整体数仓。这两种方式各有优缺点,这里不过多阐述。一般而言,大型传统行业更多采取Inmon建模,互联网行业更多采用Kimball建模。
2、ETL和ELT:在传统场景下,数据量相对比较少,那么先转换(T)完成后再加载(L)是可行的。随着数据量的增大,等待转换的过程会比较漫长,也容易出错,这个时候可以先全部加载(L)到一个临时数据层,然后再进行转换(T),然后再形成ODS层。
3、BI建设大概分成三个阶段:1)固定报表平台;2)自助分析平台;3)数据挖掘平台。大部分传统行业还是在阶段1,小部分到达阶段2。一般企业都会采购第三方公司的BI平台,比如SmartBI/FineBI等,Tableau/PowerBI相对少见。
4、数据仓库与数据治理:很多场景下这两个词的含义是一致的。但是数据仓库更偏重数据存储,对应的产品是数据库管理系统,而数据治理可以认为是在原有数据仓库的基础上根据新的数据质量/数据指标体系进行升级优化和管理,更偏重数据质量,对应的系统是主数据和元数据管理系统。