StreamSets:多线程pipelines

一.Overview

       多线程pipeline是支持并行执行的origin的pipeline,支持一个pipeline在多个线程中运行。
       多线程pipeline可以充分利用数据收集器所在机器的所有可用cpu。再使用多线程pipeline时,确保为pipeline和数据收集器分配足够资源。
       多线程pipeline遵从交付保证,但不保证处理数据批次的顺序。

二.如何工作的?

       在配置多线程pipeline时,指定origin使用多少个线程来生成批量数据。还可以配置数据收集器中用于执行管道处理的pipeline runner的最大数量。
       pipeline是一个无源管道实例——它包括管道中的所有processor和destination,表示origin之后的所有管道处理。

       origin基于所使用的源系统执行多线程,但是对于所有支持多线程管道的源,有以下的共性:
       启动pipeline时,origin根据配置的多线程属性创建多个线程。数据采集器根据pipeline Max runner属性创建多个pipeline runner来执行处理。每个线程连接到源系统并创建一批数据,并将批数据传递给可用的pipeline runner。
       每个pipeline runner一次处理一批,就像在单个线程上运行的管道一样。当数据流变慢时,pipeline runner空闲地等待,直到需要它们为止,并定期生成一个空批处理。可以配置Runner空闲时间属性,指定间隔。
       多线程pipeline在每个批中保存记录的顺序,就像单线程管道一样。但是由于批是由不同的pipeline实例处理的,所以不能保证所有批被写入目的地的顺序。
       例如,以下面的多线程pipeline为例。HTTP Server origin处理来自HTTP客户机的HTTP POST和PUT请求。在配置源时,指定要使用的线程数——在本例中是最大并发请求属性:

image.png

       在最大并发请求设置为5的情况下,启动管道时,origin创建5个线程,数据收集器创建5个管道运行器。在接收到数据后,原点将批传递给每个管道运行程序进行处理。从概念上讲,多线程管道是这样的:
image.png

       每个pipeline runner执行与管道其余部分相关联的处理。在将批写入管道目的地(在本例中是Azure Data Lake Store 1和2)之后,pipeline runner可以用于另一批数据。每个批的处理写入都尽可能快,独立于其他pipeline runner处理的批,因此批的写入顺序可能与读顺序不同。

三.支持多线程pipeline的origin

1.Amazon SQS Consumer
2.Azure IoT/Event Hub Consumer
3.CoAP Server
4.Directory
5.Elasticsearch
6.Google Pub/Sub Subscriber
7.Hadoop FS Standalone
8.HTTP Server
9.JDBC Multitable Consumer:通过JDBC连接从多个表读取数据库数据。
10.Kafka Multitopic Consumer
11.Kinesis Consumer
12.MapR DB CDC
13.MapR FS Standalone
14.MapR Multitopic Stream Consumer
15.REST Service
16.SQL Server CDC Client
17.SQL Server Change Tracking
18.TCP Server
19.UDP Multithreaded Source
20.WebSocket Server
21.Dev Data Generator

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容

  • Java继承关系初始化顺序 父类的静态变量-->父类的静态代码块-->子类的静态变量-->子类的静态代码快-->父...
    第六象限阅读 2,152评论 0 9
  • Elastic+logstash+head简单介绍 一. 概述 ElasticSearch是一个基于Lucene的...
    柒月失凄阅读 4,263评论 0 4
  • 操作系统概论 操作系统的概念 操作系统是指控制和管理计算机的软硬件资源,并合理的组织调度计算机的工作和资源的分配,...
    野狗子嗷嗷嗷阅读 11,920评论 3 34
  • 今天是2018年1月16日,上班。 昨天在住处休息了一天,把该洗的东西都洗了一遍。 前天来的时候,叫了一辆滴滴,这...
    乐小Pi孩_VoV阅读 592评论 0 1
  • 回一木就像回家的感觉 下午带小姐妹试听,自己也蹭了一节课,陈老师上课越来越有范儿了~ 12月份,一定要梳理自己,重...
    夏天的名字被用了阅读 71评论 0 0