数据流程data pipeline, 2022-08-16

(2022.08.16 Tues)
数据流程是一种将数据从不同的原始数据源收集和引入到数据存储(如数据湖、data warehouse)并用于数据分析等工作的方法。在数据进入仓库前,通过会经过一些数据处理工作,包括数据转换(data transformation),比如数据过滤(filtering)、脱敏(masking)和聚合(aggregation),该步骤用以保证恰当的数据整合和标准化,如果数据集的目标是关系型数据库则该步骤尤其重要。关系型数据库有着预先定义的schema,新进数据需要与数据schema匹配,比如匹配数据列和类型等。

Data pipeline的数据源头可能有多种,比如APIs,SQL,NoSQL,文件等。考虑到这些数据不能立即使用,数据准备和适配成为数据科学家或工程师的必备工作。数据该如何处理,往往根据EDA和业务需求而定。一旦数据被过滤、融合和统计完成,就可以存储和使用。组织良好的data pipeline是各种数据项目的基础,包括但不限于EDA,数据可视化和机器学习任务。

类型

data pipeline的类型有多种,但主要分为batch processing和streaming data。

Batch processing 批处理

2004年一种批处理算法MapReduce获得专利并整合进开源系统,Hadoop,CouchDB和mongoDB等。批处理的发展成为建立可靠可扩展数据基础设施的重要步骤。

顾名思义,批处理按批加载数据进入仓库,加载的时间往往设定为非业务高峰时段,用以减少批处理对业务的影响。在不需要实时分析数据的情况下,批处理通常是最优data pipeline。批处理往往与数据ETL(extract, transform, load)联合使用。

批处理工作往往形成串行命令流(sequenced command),前一个命令的输出是后一个命令的输入。比如一个命令开始了数据吸收(ingestion),下一个命令可能是在吸收数据的基础上对特定列进行过滤,接下去可能是数据整合等等。命令流进行下去直到数据转换的完成和写入数据仓库。

Streaming data流数据

与批处理不同,如果数据需要被连续更新则使用流数据。例如,app或销售系统需要实时库存(inventory)和产品销售历史数据,卖家根据这些数据判断是否仍然有库存等信息。产品销售这样的单一动作,被当做一个事件(event),而关联事件,如向购物车加一个商品(adding an item to checkout)等被分组为一个话题或流(topic/stream)。事件可通过消息队列工具(messaging system/message brokers)传输,比如Kafka,RabbitMQ等。

数据事件需要在发生之后立即处理,因此流处理系统需要比批处理有更低的延迟,但未必比批处理更可靠,因为消息可能被消息队列工具丢掉或队列处理事件过长。消息代理(message broker)通过通知(acknowledgement)方式处理这个问题,消费者可以向代理确认消息的已经处理完成,从队列中移除。

对比:data pipeline和ETL

data pipeline可以以多种方式处理数据,ETL被认为是data pipeline的一种。ETL代表了对数据的extract,transform和load。在ETL中,数据首先从源头抽取,之后被转换和修改存入临时存储,最后数据被加载进入云数据湖、数据仓库(data warehouse)、应用或其他仓库。

ETL经常被用于批处理大量数据,而现在随着always-on data的成熟,实时ETL、流ETL越来越常见。

ETL和data pipeline的不同体现在如下方面

  • ETL的工作流程固定,即E、T、L。data pipeline未必跟随这个工作流程。随着原生云工具的出现,ETL越来越常见。数据吸收仍然是ETL pipeline的第一步,对数据的转换应用于数据被加载入云端data warehouse之后。
  • ETL pipeline往往暗示了批处理模式,但是随着技术进展,ETL开始包括了流处理。
  • data pipeline并不一定包括ETL中的数据转换,尽管这并不常见。

建立data pipeline的步骤

核心分为三步:

  • 数据吸收(data ingestion):从不同的数据源吸收数据,包括结构化数据集和非结构化,现场数据(on-premises)和云上数据等。在流数据中,原始数据(raw data)源被称作生产者(producer)、发布者(publisher)或发送者(sender)。业务方在可以处理的时候提取数据,最好首先将原始数据存入云data warehouse供应者(provider)。这样做保证了业务方可以在必要时更新历史数据。
  • 数据转换(data transformation):将数据处理成目标数据仓库允许的格式和品质。处理过程包括对数据处理的自动化和数据治理(data governance),比如业务报告(business reporting),以确保数据在清晰和转换过程中保持一致性。比如,一个数据流可能以嵌入式JSON格式到来,数据转换过程需要展开(unroll)JSON提取关键字段用于数据分析。
  • 数据存储(data storage):经过转换的数据被保存进入一个数据仓库(repository),供相关业务方(stakeholder)使用。在流数据中,这些经过转换的数据被称为消费者(consumer)、订阅者(subscriber)或接收者(recipients)。

data pipeline的案例

随着大数据发展,数据管理在很多项目和工作的中的优先级持续提升(ever-increasing)。这里列举data pipeline在业务中的三种应用。

Exploratory data analysis,EDA

探索性数据分析是数据科学家进行数据挖掘等工作的前提工作,用于分析和研究数据集,对数据特点和特征产生基本认识,其中会应用一些可视化方法。EDA一定程度上决定了数据科学项目使用的假设、方法和模型。

Data visualizations

数据可视化通过chart/plot/infographic/动画等方式展示数据。信息的可视化展示向使用展示复杂数据关系和易于理解的对数据的insight。

machine learning机器学习

通过数据挖掘、AI和其他学习方法模拟人类学习的过程。通过统计方法的使用,训练好的算法可用于分类、预测等工作,并揭示数据挖掘项目中的重要信息。

Reference

1 What is a data pipeline? - IBM点com
2 What Is a Data Pipeline? Definition, Best Practices, and Use Cases - Informatica

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容