数据质量是伴随数据生命周期的数据本质属性,一般情况下,包括了数据的完整性、一致性、准确性、及时性、可信性等。做好数据质量管理,能够确保数据的真实可靠,并及时发现数据开发过程中存在的问题和针对性解决,从而形成良好的数据资产,保障数据分析和业务决策。
要做好数据质量管理,数据血缘技术的“自治理”模式受到越来越多关注。通过数据血缘,我们可以看到数据的起源、流经路径及其转换过程,可以精确追溯数据的初始来源,明晰其历经的各类处理流程,以及最终的应用方式,从而帮助企业分析并监控数据在业务链条中的上下游依赖关系等,为企业提升数据质量管理和问题识别、解决效率提供“洞察能力”。
但是,目前市面上主流的表级血缘和列级血缘,依然存在很大不足。表级血缘和列级血缘,主要依赖于脚本解析技术去构建表与表之间、字段与字段之间的血缘图谱,绝大部分情况下,并不能实现数据血缘的自动化解析,也无法保证解析的准确性。例如,当上下游变更协同过程中,发现异常问题,需要开发人员层层扒代码,人工查询根因,问题定位慢、效率低、易出现遗漏等。
作为国内 Data Fabric 架构理念实践者与引领者 Aloudata 全球独创的数据血缘解析技术,算子级血缘相较于表级血缘和列级血缘,能够深入作业脚本核心,实现白盒化解析,精确捕捉字段与字段之间的复杂运算逻辑,包括是否经过临时表加工处理、是否存在 Join 操作以及具体的过滤条件等细节,结合对脚本内部代码的抽取、改写、合并,能够清晰勾勒出任务输出表中字段与输入表字段之间的完整加工关系,确保数据流转的透明化和可追溯性,洞悉每一个细微环节。
通过算子级血缘,企业能够自动构建一张准确、精细、全面、实时的数据血缘图谱,并实现数据血缘解析准确率 99% 以上。同时,算子级血缘和行级裁剪功能结合,可解决血缘泛化难题,动态精准过滤无关血缘,实现精准溯源少干扰,以及质量风险的主动通知,和元数据策略服务引擎结合,可实时捕获各类事件,全链路变更主动分析、预警,10 分钟完成异常根因定位。
基于算子级血缘,Aloudata 打造了主动元数据平台——Aloudata BIG,可以为企业数据质量问题识别和解决提供事前、事中、事后的全链路保障。
具体而言,在企业预先对需保障的数据链路进行明确标记与定义的基础上,可以主动感知并监控整个链路上的关键环节,随后基于这些链路信息,能够深入洞察其运行状况,包括元数据的任何变动,如 DDL 和 DML 变更、任务调度异常情况、开始与结束时间等。通过全方位、自动化的采集与感知机制,确保了数据全链路的稳定运行,提供了坚实的数据安全保障。
在企业数据资产平台内部,能够对采集到的数据进行深度整合与分析,以精准判断上游数据表的任何变动,如字段删除或字段类型变更,是否会对下游产生实质性影响。例如,当 A 字段的类型由数值型转变为文本型时,会判断下游脚本中是否存在依赖数值型处理的加工逻辑。通过精细化分析脚本内容,若确认该字段在脚本中仅被直接引用而未涉及数值型特定处理,则判定此变更对整体链路无直接影响。
所以,每一次变更事件,都可以做到自动监测,并精确评估其对下游可能带来的风险,最终生成完整的链路风险报告,及时、准确地通知下游业务方。而一旦监测到上游存在潜在风险,如调度延迟等异常情况,会立即向下游业务方通报当前的风险节点与异常详情,并阐述这些异常对下游的影响范围及具体链路,帮助业务方迅速定位问题根源,采取应对措施,减轻或消除潜在影响。
目前,在极度复杂的真实数据生产和消费环境中,Aloudata BIG 主动元数据平台已帮助杭州银行实现了重点业务数据质量保障、全链路异常主动预警及高效协同,问题根因分析提效 40%,影响面分析人天成本降低 50%。如对算子级血缘感兴趣,或急需提高数据质量问题识别和解决效率难题,欢迎访问 Aloudata 官网,了解更多。