(2022.08.16 Tues)
数据流程是一种将数据从不同的原始数据源收集和引入到数据存储(如数据湖、data warehouse)并用于数据分析等工作的方法。在数据进入仓库前,通过会经过一些数据处理工作,包括数据转换(data transformation),比如数据过滤(filtering)、脱敏(masking)和聚合(aggregation),该步骤用以保证恰当的数据整合和标准化,如果数据集的目标是关系型数据库则该步骤尤其重要。关系型数据库有着预先定义的schema,新进数据需要与数据schema匹配,比如匹配数据列和类型等。
Data pipeline的数据源头可能有多种,比如APIs,SQL,NoSQL,文件等。考虑到这些数据不能立即使用,数据准备和适配成为数据科学家或工程师的必备工作。数据该如何处理,往往根据EDA和业务需求而定。一旦数据被过滤、融合和统计完成,就可以存储和使用。组织良好的data pipeline是各种数据项目的基础,包括但不限于EDA,数据可视化和机器学习任务。
类型
data pipeline的类型有多种,但主要分为batch processing和streaming data。
Batch processing 批处理
2004年一种批处理算法MapReduce获得专利并整合进开源系统,Hadoop,CouchDB和mongoDB等。批处理的发展成为建立可靠可扩展数据基础设施的重要步骤。
顾名思义,批处理按批加载数据进入仓库,加载的时间往往设定为非业务高峰时段,用以减少批处理对业务的影响。在不需要实时分析数据的情况下,批处理通常是最优data pipeline。批处理往往与数据ETL(extract, transform, load)联合使用。
批处理工作往往形成串行命令流(sequenced command),前一个命令的输出是后一个命令的输入。比如一个命令开始了数据吸收(ingestion),下一个命令可能是在吸收数据的基础上对特定列进行过滤,接下去可能是数据整合等等。命令流进行下去直到数据转换的完成和写入数据仓库。
Streaming data流数据
与批处理不同,如果数据需要被连续更新则使用流数据。例如,app或销售系统需要实时库存(inventory)和产品销售历史数据,卖家根据这些数据判断是否仍然有库存等信息。产品销售这样的单一动作,被当做一个事件(event),而关联事件,如向购物车加一个商品(adding an item to checkout)等被分组为一个话题或流(topic/stream)。事件可通过消息队列工具(messaging system/message brokers)传输,比如Kafka,RabbitMQ等。
数据事件需要在发生之后立即处理,因此流处理系统需要比批处理有更低的延迟,但未必比批处理更可靠,因为消息可能被消息队列工具丢掉或队列处理事件过长。消息代理(message broker)通过通知(acknowledgement)方式处理这个问题,消费者可以向代理确认消息的已经处理完成,从队列中移除。
对比:data pipeline和ETL
data pipeline可以以多种方式处理数据,ETL被认为是data pipeline的一种。ETL代表了对数据的extract,transform和load。在ETL中,数据首先从源头抽取,之后被转换和修改存入临时存储,最后数据被加载进入云数据湖、数据仓库(data warehouse)、应用或其他仓库。
ETL经常被用于批处理大量数据,而现在随着always-on data的成熟,实时ETL、流ETL越来越常见。
ETL和data pipeline的不同体现在如下方面
- ETL的工作流程固定,即E、T、L。data pipeline未必跟随这个工作流程。随着原生云工具的出现,ETL越来越常见。数据吸收仍然是ETL pipeline的第一步,对数据的转换应用于数据被加载入云端data warehouse之后。
- ETL pipeline往往暗示了批处理模式,但是随着技术进展,ETL开始包括了流处理。
- data pipeline并不一定包括ETL中的数据转换,尽管这并不常见。
建立data pipeline的步骤
核心分为三步:
- 数据吸收(data ingestion):从不同的数据源吸收数据,包括结构化数据集和非结构化,现场数据(on-premises)和云上数据等。在流数据中,原始数据(raw data)源被称作生产者(producer)、发布者(publisher)或发送者(sender)。业务方在可以处理的时候提取数据,最好首先将原始数据存入云data warehouse供应者(provider)。这样做保证了业务方可以在必要时更新历史数据。
- 数据转换(data transformation):将数据处理成目标数据仓库允许的格式和品质。处理过程包括对数据处理的自动化和数据治理(data governance),比如业务报告(business reporting),以确保数据在清晰和转换过程中保持一致性。比如,一个数据流可能以嵌入式JSON格式到来,数据转换过程需要展开(unroll)JSON提取关键字段用于数据分析。
- 数据存储(data storage):经过转换的数据被保存进入一个数据仓库(repository),供相关业务方(stakeholder)使用。在流数据中,这些经过转换的数据被称为消费者(consumer)、订阅者(subscriber)或接收者(recipients)。
data pipeline的案例
随着大数据发展,数据管理在很多项目和工作的中的优先级持续提升(ever-increasing)。这里列举data pipeline在业务中的三种应用。
Exploratory data analysis,EDA
探索性数据分析是数据科学家进行数据挖掘等工作的前提工作,用于分析和研究数据集,对数据特点和特征产生基本认识,其中会应用一些可视化方法。EDA一定程度上决定了数据科学项目使用的假设、方法和模型。
Data visualizations
数据可视化通过chart/plot/infographic/动画等方式展示数据。信息的可视化展示向使用展示复杂数据关系和易于理解的对数据的insight。
machine learning机器学习
通过数据挖掘、AI和其他学习方法模拟人类学习的过程。通过统计方法的使用,训练好的算法可用于分类、预测等工作,并揭示数据挖掘项目中的重要信息。
Reference
1 What is a data pipeline? - IBM点com
2 What Is a Data Pipeline? Definition, Best Practices, and Use Cases - Informatica