浅谈大数据(一)

数据之于网络时代,犹如石油之于工业时代。大数据即是在互联网时代,信息储存和处理能力飞跃发展之后的一个成果,蕴含着巨大的应用空间和商业价值。对于个人而言,大数据把我们的生活安排得顺心又妥当,但有时它无孔不入,让人感觉时刻处于“窥视”之中。不管大数据是我们肚子里的蛔虫还是细致入微的管家,它是如何做到“面面俱到”的?今天就来盘一盘大数据。

什么是大数据?

21 世纪初 Web 2.0带来的互联网爆发性增长,当时 Google、雅虎等公司的数据量级已经远超单机可处理,并且其中大部分数据用传统的数据库基本无法处理,由此开始探索新型的数据存储和计算技术。在 2003-2006 年里,Google 发布了 GFS、MapReduce 和 Bigtable 内部研发成果论文,雅虎基于 GFS/MapReduce 论文建立了开源的 Hadoop 项目,为后续十多年大数据发展的奠定了基础。行业里通常以这个时期作为大数据的诞生。那么,究竟什么是大数据呢?

大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 

 ——百度百科

大数据(Big Data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 

——数据观

以上是两个较权威平台对于大数据的定义。此外,吴军在其《智能时代》中也表达了对于大数据的理解:所谓的大数据,一定要同时满足大量、多维和完备(相对来说)的特点,并在此基础上,最好具有“时效性”。

大数据的解决方案

近年来,云(Cloud)的兴起又使得大数据技术对于中小企业唾手可得,大数据技术得到迅猛发展,经过多年的发展,每个领域都有一定的进展和沉淀,各种大数据解决方案也应运而生。

大数据的技术体系介绍

· 分布式存储

分布式存储的典型代表是谷歌的GFS和Apache Hadoop的HDFS,均为支持多备份的Append-only文件系统。HDFS作为开源存储的奠基,其接口成为事实标准,同时HDFS又具备支持其他系统作为背后存储系统的插件化能力,本文以HDFS为例简要展开。

HDFS分布式储存架构

HDFS(Hadoop Distributed FileSystem)是一种专门为MapReduce这类框架下的大规模分布式数据处理而设计的文件系统。可以把一个大数据集(100TB)在HDFS中存储为单个文件,提供高吞吐量的数据存取。

NameNode:HDFS 元数据管理者,管理NameSpace(文件系统命名空间),记录文件是如何分割成数据块以及他们分别存储在集群中的哪些数据节点上。

DataNode :文件系统的工作节点。根据客户端或者NameNode 发送的管理指令,负责HDFS 的数据块的读写和检索操作。

Secondary Namenode:主要功能就是周期性将元数据节点的命名空间镜像文件和修改日志合并,以防日志文件过大。

Client: 用户与NameNode 或者DataNode 交互来访问整个文件系统的对象。

因HDFS早期NameNode在扩展性和容灾方面存在短板,各个公司也在这个基础上自研存储系统, 按照高吞吐、低成本、容灾、高可用是核心方向持续优化,推进了分布式存储的演进。当下,分布式存储向多层智能化演进。如何智能/透明的将数据存储分层,找到成本与性能的Trade-off,是多层存储系统的关键挑战。这领域起步不久,开源领域没有显著好的产品,最好的水平由几个大厂的自研数仓存储系统引领。欢迎感兴趣的朋友一起探讨。

· 数据资产管理

大数据技术的不断更迭带来更多的数据生产,数据量级的提升又催化了数据资产管理工具的不断升级。数据资产管理主要包含以下几个方面:

随着数据量的急剧攀升,也诞生一系列数据管理体系,数据仓库、数据湖、数据中台不绝于耳,它们之间到底有啥区别与关系呢?

数据仓库(Data Warehouse):是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策和服务运营。数据仓库针对实时数据处理,非结构化数据处理能力较弱。

数据中台:通过对企业内外部多源异构的数据采集、治理、建模、分析和应用,使数据对内优化管理 提高业务价值 ,对外进行数据合作让业务价值得到释放,使之成为企业数据资产管理中枢。数据中台建立后,会形成数据API服务,为企业和客户提供高效各种数据服务。

数据湖(Data Lake):Pentaho的 CTO James Dixon提出来的,是一种数据存储理念——即在系统或存储库中以自然格式存储数据的方法。数据预先不进行定义,使用的时候按需定义。

关于数据仓库、数据中台以及数据湖的异同,可以通过如下表格简要对比:

除了这三种近年来较火的数据管理规范,其特点及侧重点不尽相同,为了更好地发挥数据价值,未来数据管理趋于融合,同时也在不断创新。企业需根据自己的实际业务需求去选择哪种方案或融合方案。

数据的存储管理是大数据技术运用的核心和基础,本文暂且对数据存储及管理做简要阐述。下一期内容,我们将对数据应用分布式计算数据赋能推荐进一步分享。内容浅显,仅作抛砖引玉,希望和广大开发者共同探讨!


更多精彩内容推荐:

增长270%!PWA 在 Chrome 平台迎来井喷式增长

PWA能否成为未来?—探索构建面向未来的网络应用程序

轻量级兼顾本地体验,PWA应用到底有多卷?

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容