大数据平台的基本逻辑

如今的应用导向逐渐从计算密集型演变为数据密集型,也就是说计算速度并不是导致系统能力不足的关键因素,关键在于数据量,数据格式以及数据的变化。应运而生的大数据技术包括HBase,Kafka,Spark等成为行业内典型的解决方案。

根据Oracle在2013年发表的论文,我们很容易看出在行业早期,大数据能做什么已经有了相当明确的指导。

Big Data & Analytics Reference Architecture Conceptual View

总结来看就是

  • 对于多结构数据的管理,包括存储管理以及快速查询
  • 实时的数据分析,包括一些可视化的监控以及方案分析等
  • 智能分析,包括应用于智能推荐,企业决策制定,包括物联网应用以及边缘计算等。

我们可以简略的画出一套大数据平台的设计图。


大数据平台基础设计

在实际应用中我们的数据源可能会有多种来源,比如多个业务部门的数据库,或是收集的日志,或是在互联网上爬取的数据,对于这些来源的数据有各自不同的处理方式,比如异构数据仓库同步可以选择DataX,Sqoop,Heka等。日志收集可以使用filebeat,logstash等。爬取的数据可能还得需要放到自定义的清洗组件中进行初步清洗,这些数据经过初步的ETL(提取-转换-装载)可以进行统一的数据管理,在方法论中我们称为数据湖
之后根据不同业务功能会做进一步的数据计算处理,技术栈基本选为spark等,可以使用spark+kafka的stream处理实时的任务,也可以直接提交离线任务。
计算完毕的数据,可以存入放入数据仓库中,通过数据仓库建立的业务如数据API,基础计算指标,SSO,完整的训练模型等,我们称为数据市场,数据仓库中的数据已经具备了与业务交涉的能力,后续的可以根据数据市场提供的服务或者数据进行报表展示,监控指标可视化,智能决策等。

数据管理

从技术角度来看,google发表的Bigtable论文因为有大量实际应用的案例支撑,相关的设计可以很好的解决大规模多结构数据的存储与管理,可以很好的支撑数据湖的概念。也就是说,我们可以把企业的所有数据资产放到数据湖中统一管理,根据AWS上给出数据湖的概念如下:

数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理)


AWS数据湖概念

关于数据湖的具体方案基本都是基于Hadoop生态上的,可以选择Bigtable对应的开源实现HBase,或是Hive,甚至也可以选择RDBMS。

数据计算处理

这部分建设,其间处理的数据和业务细节息息相关,所以有各种千差万别的方案,不同的方式会遇到各式各样的问题,可以说,在这整个数据流水线上对数据的ETL决定了大数据平台基础的好坏。
通常有两种任务方式
实时任务,通常处理使用spark+kafka的流式计算,这种计算方案服务于一些可视化平台需要的实时指标计算,以及实时采集系统等。
离线任务,通过yarn资源管理提交的机器学习模型训练,数据打标,分类,预测,以及结构化处理。

针对之上的两种任务,自然衍生出了一些问题

  • 数据治理,包括保证数据的质量,数据脱敏,血缘分析,数据生命周期,以及数据分类估算数据价值等。
  • 发生故障时,需要及时的警报,尤其是实时任务出现故障, 该如何快速定位?该如何构建出一套全链路追踪系统?
  • 复杂的workflow,这可能不适用于大多数企业,往往一个定时系统完全cover的住整个workflow,但是随着业务发展,各个业务之前相互依赖,构建一套完成的workflow体系就成了整个平台的重点。
  • 资源管理,虽然有了yarn可以帮助我们做资源调度。但是有些时候,任务的优先级可能基于各种指标,一些任务的资源调度得根据实际的集群资源需求来合理分配,整个资源调度流程该如何把控?
  • 权限管理,当建设的大数据平台属于各部门间通用的基础设施,权限管理,以及用户行为的审计。

总结

当然之后的数据仓库存储,以及数据市场已经逐渐偏离出大数据平台基础功能的范畴。在这里不在详细展开讨论。
总结来说,搭建一套大数据计算平台并不难,我们可以选择现成的开源方案apache ambari在很短的时间内完成搭建。但正所谓“家家有本难念的经”,各个业务部门的垂直化,以及workflow的差异,在开源组件之上,还需要有大量的开发工作。在企业内部,我们究竟有没有必要搭建一套通用的大数据平台?还是先根据各个部门垂直业务定制化各自搭建开发管理?通用化建设方案方便管理,各部门业务更加整合,集中统一协调调度方便快速,做决策代价更低。但是随之而来的是平台技术栈的急剧提升,以及在平台建设初期遇到的各种故障,是否是企业当前可以接受的?可以说一套通用的大数据平台建设得投入一定的人员成本,且经过一段时间的沉淀才能产生实际的效益。垂直化方案可以快速的搭建一套简单定制化的平台,一个部门只需要一两个人力维持平台业务的稳定,以及对应的个性化开发。相反的,在整体的资源利用率以及数据整合方面就需要打些折扣了。
适合自己的才是最好的,如果一味照搬没有任何出路可言。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,744评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,505评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,105评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,242评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,269评论 6 389
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,215评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,096评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,939评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,354评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,573评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,745评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,448评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,048评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,683评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,838评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,776评论 2 369
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,652评论 2 354

推荐阅读更多精彩内容