大数据场景下多源异构数据的实时处理分析

随着大数据应用的发展,人们对实时数据的要求越来越高,大数据也逐渐从最初的离线数据仓库架构发展到Labmda架构,实现了离线实时更新的目标。到后来的Kappa体系结构中,Labmda体系结构的实时部分被提取出来单独运行。实时大数据时代已经到来,本文在此背景下介绍了一种基于Kappa体系结构的多源异构数据实时处理与分析体系结构。

一、架构介绍

下图为基于Kappa架构的多源异构数据实时处理分析体系结构,如图所示,它主要包括数据采集、流数据处理、流数据存储、数据服务四个环节,其中数据服务没有固定的结构,在不同的业务场景变化很大。以下主要介绍了三个环节:数据采集、流数据处理和流数据存储。

1、数据采集

采用ELK构件结构实现数据采集,其中Logstash接收多源异构数据并同时发送到消息队列进行流数据处理,ElasticSearch用于源数据存储。Logstash支持多种传输模式,包括TCP、UDP、JDBC和Kafka等,它还支持多源数据的类型验证,并在初期过滤不符合规范的异构数据。Kibana是ElasticSearch的可视化查询工具,能够使用组合嵌套查询语句全局查询ElasticSearch中的数据。

2、流数据处理

Flink实时流计算引擎用于实现流数据处理,订阅发送到第一个链路Logstash的消息队列,从消息队列中获取多源异构数据,并根据业务需求进行数据过滤、重复数据删除、补全、格式转换、索引提取等ETL操作。格式化数据和指标数据经过ETL后可以继续用于统计分析、匹配算法,实现业务需求的画像、预测等结果数据。

3、流数据存储

流数据存储也采用ELK组件结构,它不仅存在于整个建筑的尾部,也存在于建筑的中间环节。在第一个环节中,Lostash将数据传输到消息队列或将其存储到ElasticSearch,两者都是流数据存储。在第二个环节中,中间阶段的数据需要推送到消息队列中,同时存储到ElasticSearch中,推送到消息队列用于中间存储,便于后续处理流程订阅数据进行业务处理,存储到ElasticSearch中则是传统数仓架构中中间表留存的思维,用于中间数据的存储和查询。第二环节处理后的结果数据根据需要可不推送到消息队列,只进行ElasticSearch存储。

二、关键技术点

多源异构数据的实时处理分析架构中最为复杂和难以设计的是第二环节流数据处理。采用Flink实现流数据处理的方法是丰富多样的,可能存在的问题也是多种多样的。为了减少问题出现的概率,本文介绍以下两种维持Flink稳定高效运行的优化解决方案。

1、检查点重启策略

由于各种原因,Flink流数据处理任务可能会中断。为了实现因故障中断的任务的自动重启,保证系统的鲁棒性,需要配置检查点重启策略。其原理是定期对Flink任务进行快照,当任务由于故障而中断时,如果配置了重启策略,程序将从最新的快照位置恢复。

当然,检查点重新启动策略只是一种故障安全策略,重新启动只能解决部分问题,还有许多问题是重新启动无法解决的。在这种情况下,任务会反复重启,直到重启次数超过设置的限制而出现中断,这时就需要工程师来手动解决。

2、内存模型优化

下图显示了Flink任务运行时容器的内存模型。当Flink任务启动时,将启用一个严格按照下图内存模型分配内存的容器。一般情况下,默认的内存分配无法支持生产环境下的任务运行,因此每位大数据工程师都应该掌握内存分配技能,以支持业务任务的运行。

但是仅仅支持运行是远远不够的,内存分配的合理程度对系统的稳定性和鲁棒性有着巨大的影响。例如,若集群之间的网络交换速度是系统的瓶颈,短时间内的大量数据吞吐可能会导致交换内存占满,无法进行数据交换导致任务中断。在这种情况下,可以通过增加网络交换内存来提高瓶颈的吞吐量,避免系统故障。

三、总结

本文介绍了多源异构数据实时处理与分析体系结构的流程结构并阐述了两种保持系统稳定性和鲁棒性的关键技术。该架构可以应用于各种生产业务场景,目前鹏信科技已将该架构应用于态势、反诈、研判等安全项目,支撑项目稳定高效运行,效果显著。

来源:【鹏信科技】微信公众号

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,496评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,407评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,632评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,180评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,198评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,165评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,052评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,910评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,324评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,542评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,711评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,424评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,017评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,668评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,823评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,722评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,611评论 2 353

推荐阅读更多精彩内容