对大数据的一些想法

我看到有些人,到现在其实对大数据到底是什么?要做什么?怎么做?(其实这是哲学的经典的三个问题,遇到问题,都从这些问题出发,对自己还是有好处的)其实都还不是特别清晰。所以我想说说我的理解,也许不是很准确,但是希望对大家有用。

一、为什么要用大数据?

首先,大数据的出现与普及,并不是因为概念啊,噱头之类,而是因为实际生产中,遇到了大量数据无法处理的问题。这些问题才是让大数据技术蓬勃发展的土壤。

其次,我们是不是一定要用大数据生态圈的东西?现在很多人的误区是,为了大数据而大数据(包括一些公司,可能就是为了蹭点热点)。我们要用什么怎么用,其实都是根据业务来的,根据需求来的。对于同一个问题,我们可能会用到hdfs、spark、flume这些通用性轮子等等,但是有些牛逼的架构师,会根据业务需求,可能会自己造些更适合的针对性更强的轮子来解决。其实当你每次都从需求角度出发,从业务角度出发考虑问题的时候。你对大数据生态圈里的数十种组件也就不会那么迷茫了。

总之,大数据就是解决数据量大的问题,只要你明白数据流转的整个过程,然后针对这个过程,去选择相应的组件就够了。也许是和网上流传的通用架构一样,也许根本没有用到几个大数据生态中的组件,但是这都没有关系,只要能解决问题,有一定的拓展性,就够了。

二、大数据是做什么的?

简单来说,大数据就是为了处理数据的。我认为主要是四个步骤,这些名称都是自己想的,可能和一些主流的说法不太一样,但是我会在说明中,尽量解释清楚。

源数据存储——数据处理——目标数据存储——结果展示

(一)源数据存储:主要分为数据采集——数据清洗——数据存储三个步骤。

我个人认为数据采集是非常麻烦,而且不可预测因素最多的一个环节。在这里就不展开说了,简单的就是把我们需要的数据拿过来。

我在这里主要说几个概念,这些概念都不是大数据的专属,很多公司都在做,只不过手段不同而已:

(1)数据仓库、数据集市、用户画像、数据分层等虽然他们概念有很多的区别,但是他们都做了一件事情,就是把数据整合成我们想要数据,只不过程度不同而已

(2)ETL只是完成上述功能的过程的说法而已。具体如何etl 我不太清楚,但是我知道用hive、sqoop等都可以完成简单的etl。

(二)数据处理:我这里的数据处理,主要是指计算。

这里也说两个概念:

(1)离线计算:具体概念不解释了,主要讲一下工具:最传统的是MR,hive,spark等,除了计算以外,如何去做任务调度,也很重要

(2)实时计算:现在主流的storm,sparkstreaming,flink。storm的出现比较早,在传统架构中也应用比较多,但是拓展性稍差。sparkstreaming,微批处理。flink,实时处理,完成某些功能比sparksteaming更加便捷。后两种计算框架现在都比较流行。重点就是解决三类问题:1.如何保证消息不重、不漏。2、消息堆积了怎么处理?3、出现OOM如何处理(即实时流程中的某一个组件挂了,如何处理)?

(3)如何使用?

举个简单的例子。pv ,uv 的计算,你既可以用离线,也可以用实时,也可以结合起来。

那么为什么会将同一个计算,划分出实时和离线呢?都用实时、或者都用离线的不就好了?主要的原因有以下几点:

一是在实时这个概念上要区分和实时响应(对用户)和实时计算(对数据)的区别:如果在用户发起请求的时候,把所有的数据都计算一遍,那返回的一定是最准确的数据。但是计算需要时间,就做不到实时响应了。

二是离线数据有时间差,对于某些业务,过长的时间差是很致命的。

三是实时计算因为追求速度,所以在稳定性和准确度都没有离线计算高

四是实时计算对于处理复杂计算效果不够理想

所以最好的方式就是将实时计算和离线计算同时使用,这样会降低资源使用、人力成本和获得不错的稳定性和准确性

(三)目标数据存储

到了这一步,我们的数据已经可以用了。这个时候要考虑的就是存到哪里,怎么存?这个时候要根据业务数据量来决定,可以存到mysql 等RDBMS中,也可以存到HBASE、REDIS、MONGODB等nodql中。当然根据业务需要采取混合存储,也是现在非常常用的。

(四)结果展示

终于到了最后一步,我们的工作是不是就做完了?我现在已推荐系统为例,简单说一下整个的数据流程。


千言万语画成一张图。这就是一个简单系统逻辑(而不是架构),我为什么选择思维导图而不是流程图来展示这些。主要的一个原因是我想表达一个意思:最终的系统会根据业务和数据的形式,将上述数据流转的过程循环嵌套。就比如推荐系统的源数据是数仓。但是数仓本身的建立,也要经过数据流转的全过程。

以上就是我对大数据的一点看法。其中有些是为了表述简单,偷换了一些概念,有些是因为自身的原因,理解的不够准确(特别是数仓和数据集市的方面),如果有问题的,欢迎大家批评指正。

最后再补充一张通用架构图


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342

推荐阅读更多精彩内容