大数据平台架构技术选型与场景运用

内容来源:2017年5月6日,大眼科技CTO张逸在“魅族技术开放日第八期——数据洞察”进行《大数据平台架构技术选型与场景运用》演讲分享。IT大咖说(id:itdakashuo)作为独家视频合作方,经主办方和讲者审阅授权发布。

 阅读字数1819  | 4分钟阅读

嘉宾演讲视频回顾及PPT:http://suo.im/0d7h4s

摘要

本次分享将结合多个大数据项目与产品研发的经验,探讨如何基于不同的需求场景搭建通用的大数据平台。内容涵盖数据采集、存储与分析处理等多方面的主流技术、架构决策与技术选型的经验教训。

大数据平台内容

数据源往往是在业务系统上,大多数做数据分析的时候,不会直接对业务的数据源进行处理,这时就需要数据采集。

采集到数据之后,基于数据源的特点把这些数据存储下来。

最后根据存储的位置做数据分析和处理。

整个大的生态圈的核心就是数据采集、数据存储和数据分析。

数据源的特点

数据源的特点决定了数据采集与数据存储的技术选型。数据源的特点主要有来源、结构、可变性和数据量四大类。

来源有内部数据和外部数据,它们的处理方式是不一样的。

结构型数据和非结构型数据的选型也是不同的。

第三个特点是数据是否具有可变性,分为不变可添加和可以修改删除两种类型。

数据量则有大数据量和小数据量之分。

内部数据

内部数据来自企业系统内部,可以采用主动写入技术,从而保证变更数据及时被采用。

外部数据

外部数据分为API调用和网络爬虫。

如果要取到的数据本身提供了API,可以通过调用API来获得数据。

另一种情况是没有提供API,通过爬虫去把数据“爬”过来。

非结构化数据&结构化数据

非结构化数据和结构化数据在存储的时候选型完全不同。非结构化数据更多会选择NoSQL的数据库,而结构化数据考虑到数据的一致性和查询在某些方面做join时的快速性,则会更偏向于选择传统的关系型数据库,或是像TERADATA这样非开源的专业数据库,以及PostgreSQL这种支持分布式的数据库。

不变可添加

如果数据源的数据是不变的,或者只允许添加,则采集会变得非常容易,同步时只需要考虑最简单的增量同步策略,维持数据的一致性也变得相对容易。

可修改可删除

数据源的数据有些可能会修改或删除,尤其是许多维表经常需要变动。要对这样的数据进行分析处理,最简单的办法就是采用直连形式。如果要进行数据采集,就要考虑同步问题。

大数据量

利用时间来处理大数据量并不是一个实时的处理方式。要做到实时的处理方式,应该采用流式处理。要将两种方式结合起来,就要用到大数据的lambda架构。

Lambda架构分为了三层,最下层是speed layer,要求速度快,也就是实时。

最上层是batch layer,也就是批处理。

通过中间层serving layer,定期或不定期地把batch views和speed views去做merged,会产生一个结合了batch的数据。它既满足了一定的实时性,又能满足一定的大数据量。这是目前比较流行的一种大数据的处理方式。

一个典型的数据加载架构

数据存储的技术选型

取决于数据源的类型与数据的采集方式。

取决于采集后数据的格式与规模。

取决于分析数据的应用场景。

大数据平台的特征就是,相同的业务数据会以多种不同的表现形式,存储在不同类型的数据库中,形成一种poly-db的数据冗余生态。

场景一:舆情分析

针对某手机品牌的舆情分析。客户提出的需求是能够对舆情数据进行全文本搜索。舆情数据最高可能达到70亿条,而全文本搜索的性能指标要求响应时间控制在10s以内。

爬虫爬到kafka里面,进行流处理去虫去噪,再做语义分析,语义分析完之后将舆情数据写入ES,全量数据写入HDFS。

场景二:商业智能产品

聚合运算把数据源采集存储的时候,是基于列的运算,而传统数据库是行式存储。行式存储针对于列的运算需要全表才能拿到,这时选择用parquet。因为parquet是以列式方式做存储,所以做统计分析很快。但parquet执行查询会很慢,没有优势。

场景三:Airbnb的大数据平台

Airbnb的数据一部分来自于本身的业务数据在MySQL,还有一部分是大量的事件。数据源不同,处理的方式也不一样。

基于日志,就用事件写入kafka;如果是针对MySQL,就用Sqoop,写入HDFS里,并建立Hive的集群。还存了一份数据放入亚马逊的S3。

有一部分业务就是对数据合并后放入HDFS做大量的业务查询和业务统计。这时希望用SQL的方式进行查询,会有很多选项,它选择的是Presto。

还有一些流式处理或机器学习要用到Spark,选型就会不同。

数据处理的分类

从业务角度来看,可以分为查询检索、数据挖掘、统计分析和深度分析。

从技术角度分为五类,batch MapReduce、SQL、流式处理、Machine Learning和DeepLearning。

编程模型有离线编程模型、内存编程模型和实时编程模型。

基于数据源的特点、分类,采集的方式,以及存储的选型,到数据分析和处理的分类,可得出一个相对总体的大数据平台架构。

我今天的分享就到这里,谢谢大家!

编者:IT大咖说,转载请标明版权和出处

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,324评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,356评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,328评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,147评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,160评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,115评论 1 296
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,025评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,867评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,307评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,528评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,688评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,409评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,001评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,657评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,811评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,685评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,573评论 2 353

推荐阅读更多精彩内容