作为一名数据产品经理,即使我们不写程序,也需要知道正在运行的大数据系统中,是如何一步步的实现可视化展示的。不仅能指导在新产品规划中提前基于典型业务场景、异常业务分析(如核心客户流失对年度营业收入的影响分析、某次线下活动过后出现一批从未出现过的新线索)、客户最为关心的经营指标波动等等的产品功能设计,也能在需求汇报或原型讲解时,以事实案例为依据、数据为支撑来提升可行性和上线后的成功概率。甚至在产品投入正常后,能通过excel、Tableau等可视化工具查看超出指标阈值的业务,并进行初步的数据探测,领先于滞后的财务指标洞察问题,提供解决方案,指导产品迭代和业务提升。
以下是产品经理眼中的数据仓库架构
图中显示的整个数据仓库环境包括操作型系统(图中的操作层)和数据仓库系统(图中的数据仓库、数据集市、应用)两大部分。
操作型系统的数据由来自各个系统或产品里的业务数据组成,比如企业已有的系统,表格,还可能是用网络爬虫抓取来的互联网数据等。数据表现形式可能是结构化、半结构化、非结构化的。这些数据经过抽取、转换和装载过程进入数据仓库系统。这里的数据将被以保证最重要的和最频繁的查询能够快速执行的方式构建。
而从数据仓库到数据集市这一过程就是常说的业务建模。业务建模一定是基于职能部分和业务部门的数据使用需求开展。业务建模过程中,有两个最重要的概念,事实表和维度表。事实表是存放具有度量结果的详细值或事实的表;维度表是存放各类属性的表,像地区、城市、项目类别、客户类别等。而基于这两种表的关系,可以把建模分成星型模型和雪花模型。
星型模型:模型里的每一个维度都直接与事实表中的数据直接相连,性能好;
雪花模型:有一个或多个维度表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起一样,雪花模型的好处是冗余少;
建立数据集市的好处主要有:
安全性:每个部门,甚至每一个角色都可以完全控制他们自己的数据
一致性:因为每个数据集市的数据来源都是同一个数据仓库,有效消除了数据不一致的情况。
重要的一点是,所有的报表工具、BI工具或其他数据分析应用都可以直接从数据集市查询想要的数据,而不是直接查询数据仓库。