首先要知道,数据质量问题在一个公司里到底是一个什么层级的问题?
很多对数据部门来说很严重的问题,对其他部门的同事来说,却并不是问题。数据平台的数据治理方案,为数据质量管理提供了基础工具,但是整体问题的解决仅仅依靠工具是不够的。
统一名词库,是一件典型的“看起来很简单”的事情。
第一种,是由于不同部门使用的规范不统一造成的。
如果各业务的开发部门相互独立,有各自的架构师和代码规范,不统一就非常正常。这种情况通常可以在数据仓库通过计算来将规范统一。
第二种,是方案带来的问题(或者叫作定义问题),包括技术方案和产品方案。
产品方案问题可以分为数据方案问题和后台方案问题。
数据方案即我们通常讲的“口径问题”,即同一个名词,在不同的业务场景下均被使用,但是有不同的指标定义。这种情况相对好解决,短期内对“所有计算透明口径”达成共识,长期使用更多上层表和统一指标库即可。
第三种,也是最复杂的一种,即架构问题。
(1)无埋点有多大程度可以替代埋点?
(2)埋点内容究竟应该由谁来维护?如何维护?
至少在目前普遍通用的技术方案中,埋点仍然不可替代。在现阶段,无埋点和全埋点方案只能是埋点的补充,而无法成为主导。这里面的主要原因是埋点具有更高的可控性:一是规范可以和前端代码规范解耦,由数据重新定义:二是可以任意添加属性和属性值。尤其是后者,对业务来说极其重要。
事实上,维护好一套埋点规范并不容易,也并不是由单一的某一方执行即可解决。如果要选择单一部门负责,则任何一个部门都会觉得埋点里的很多信息是属于其他部门的,由自己来维护有困难。真实的场景是,谁有能力维护,就由谁来主导并串联信息,但是各部分数据的拥有者要在一定程度上为维护信息的质量负责。无论这个主导的人是技术、产品还是业务部门的,都需要有专人来沟通、跟进、执行埋点,而不是由各部门合作完成。