系统架构设计笔记(14)—— NoSQL 与大数据

1 NoSQL

NoSQL 即 Not Only SQL ,可直译 “ 不仅仅是 SQL” ,这项技术正在掀起一场全新的数据库革命性运动。

数据的模式包括多种类型,如层次模型 、 网状模型 、 关系模型等,而在实际应用过程中,几乎都是在用关系模型,主流的数据库系统都是关系型的。但随着互联网 web2.0 网站的兴起,传统的关系数据库在应付 web2.0 网站,特别是超大规模和高并发的 SNS 类型的 web2.0 纯动态网站已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。这也就使得 NoSQL 技术进入了人们的视野。

NoSQL 的出现打破了长久以来关系型数据库与 ACID 理论大一统的局面。 NoSQL 数据存储不需要固定的表结构,通常也不存在连接操作。在大数据存取上具备关系型数据库无法比拟的性能优势。

关系型数据库中的表都是存储一些格式化的数据结构,每个元组字段的组成都一样,即使不是每个元组都需要所有的字段,但数据库会为每个元组分配所有的字段,这样的结构可以便于表与表之间进行连接等操作,但从另一个角度来说它也是关系型数据库性能瓶颈的一个因素。而非关系型数据库以键值对存储,它的结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加一些自己的键值对,这样就不会局限于固定的结构,可以减少一些时间和空间的开销。

与关系型数据库相比, NoSQL 数据库具有以下几个优点:

(1)易扩展

NoSQL 数据库种类繁多,但是一个共同的特点都是去掉关系数据库的关系型特性。数据之间无关系,这样就非常容易扩展。无形之间,在架构的层面上带来了可扩展的能力。

(2)大数据量,高性能

NoSQL 数据库都具有非常高的读写性能,尤其在大数据量下,同样表现优秀。这得益于它的无关系性,数据库的结构简单。一般 MySQL 使用 Query Cache ,每次表一更新 Cache 就失效,它是一种大粒度的 Cache ,在针对 web2.0 的交互频繁的应用, Cache 性能不高。而 NoSQL 的 Cache 是记录级的,是一种细粒度的 Cache ,所以 NoSQL 在这个层面上来说性能就高很多了。

(3)灵活的数据模型

NoSQL 无须事先为要存储的数据建立字段,随时可以存储自定义的数据格式。而在关系数据库里,增删字段是一件非常麻烦的事情。如果是非常大数据量的表,增加字段简直就是一个噩梦。这点在大数据量的 web2.0 时代尤其明显。

(4)高可用

NoSQL 在不太影响性能的情况,就可以方便地实现高可用的架构。比如 Cassandra , HBase 模型,通过复制模型也能实现高可用。

当然, NoSQL 也存在很多缺点,例如,并未形成一定标准,各种产品层出不穷,内部混乱,各种项目还需时间来检验,缺乏相关专家技术的支持等。

2 大数据

大数据( big data ),指无法在一定时间范围内用常规软件工具进行捕捉 、 管理和处理的数据集合,是需要新处理模式才能具有更强的决策力 、 洞察发现力和流程优化能力的海量 、 高增长率和多样化的信息资产。

2.1 大数据的特点

业界通常用 4 个 V(即 Volume、 Variety、 Value、 Velocity)来概括大数据的特征。

(1)Volume

指的是数据体量巨大,从 TB 级别跃升到 PB 级别(1 PB =1024 TB ) 、 EB 级别(1 EB =1024 PB ),甚至于达到 ZB 级别(1 ZB =1024 EB )。截至目前,人类生产的所有印刷材料的数据量是200 PB ,而历史上全人类说过的所有话的数据量大约是 5 EB 。 当前,典型个人计算机硬盘的容量为 TB 量级,而一些大企业的数据量已经接近 EB 量级。

例如,在交通领域,某市交通智能化分析平台数据来自路网摄像头 / 传感器 、 公交 、 轨道交通 、 出租车以及省际客运 、 旅游 、 化危运输 、 停车 、 租车等运输行业,还有问卷调查和地理信息系统数据。4万辆车每天产生 2000 万条记录,交通卡刷卡记录每天 1900 万条,手机定位数据每天 1800 万条,出租车运营数据每天 100 万条,电子停车收费系统数据每天 50 万条,定期调查复盖8万户家庭等,这些数据在体量上就达到了大数据的规模。

(2)Variety

指的是数据类型繁多。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志 、 音频 、 视频 、 图片 、 地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。

(3)Value

指的是价值密度低。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有 1-2 秒。如何通过强大的机器算法更迅速地完成数据的价值 “ 提纯 ” 成为目前大数据背景下亟待解决的难题。当然把数据集成在一起,并完成 “ 提纯 ” 是能达到 1+1 大于2的效果的,这也正是大数据技术的核心价值之一。

(4)Velocity

指的是处理速度快。这是大数据区分于传统数据挖掘的最显着特征。根据 IDC 的 “ 数字宇宙 ” 的报告,预计到 2020 年,全球数据使用量将达到 35.2ZB。 在如此海量的数据面前,处理数据的效率就是企业的生命。

2.2 传统数据与大数据的比较

比较维度 传统数据 大数据
数据量 GB 或 TB PB(1 PB =1024 TB)
结构化程度 结构化或半结构化数据 所有类型的数据
数据分析需求 现有数据的分析与监测 深度分析(关联分析、回归分析)
硬件平台 高端服务器 集群平台

2.3 大数据处理关键技术

大数据处理关键技术一般包括:大数据采集 、 大数据预处理 、 大数据存储及管理 、 大数据分析及挖掘 、 大数据展现和应用(大数据检索 、 大数据可视化 、 大数据应用 、 大数据安全等)。

2.4 大数据应用

大数据可以在各行各业得以应用,如金融服务 、 医疗保健 、 零售业 、 制造业 、 政府机构等。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容

  • 第三章 数据库系统 3.1 数据库管理系统的类型 通常有多个分类标准。如按数据模型分类、按用户数分类、按数据库分布...
    步积阅读 2,699评论 0 7
  • 为何要使用NoSQL数据库? 1.NoSQL具有灵活的数据模型,可以处理非结构化/半结构化的大数据 2.NoSQL...
    毛子阿卡西阅读 534评论 0 3
  • 最近抽时间把Redis学了一下,所以就在网上找了一些资料。然后找到尚硅谷-周阳老师的视频教程,觉得里面的讲的挺好。...
    MPPC阅读 1,077评论 0 3
  • 不知不觉间,已经是大二的学姐了,曾经无比憧憬的大学生活,在亲身经历过后才发觉并没有想象中的那么美好,反倒是已经逝去...
    Robine阅读 1,135评论 0 3