BIG数据简介:类型,特性和优点

翻译自: http://www.guru99.com/what-is-big-data.html

为了理解“大数据”,我们首先需要知道“数据”是什么。牛津字典将“数据”定义为

“由计算机执行操作的数量,字符或符号,其可以以电信号的形式存储和传输并记录在磁性,光学或机械记录介质上。

因此,“大数据”也是一个数据,但具有巨大的规模。“大数据”是用来描述数据的集合,体积庞大,而且随着时间成倍增长,简而言之,数据是如此庞大而复杂,没有传统的数据管理工具能够存储它或有效地处理它。

“大数据”

以下是一些“大数据”

  • 在纽约股票交易所每天产生新的贸易数据约1TB。
  • 统计数据显示,每天有500多万亿字节的新数据被存入社交媒体网站Facebook的数据库 。这些数据主要是通过照片和视频上传,消息交换,发表评论等方式生成的。
  • 单喷气发动机,可在30分钟的飞行时间内产生10+TB的数据。每天有数千次航班,数据的生成达到了许多PB。

大数据分类

大数据“可以有三种形式:

  • 结构化的
  • 非结构化
  • 半结构化

结构化的

可以以固定格式的形式存储,访问和处理的任何数据被称为“结构化”数据。在这段时间内,计算机科学的人才在开发处理这类数据的技术方面取得了更大的成功(其中格式是预先知道的),并且从中获得价值。然而如今,我们预见到数据大小增长的问题,甚至到达数ZB的大小。

你知道吗?10^21字节等于1ZB或100wTB形成1ZB。

看看这些数字,可以很容易地理解为什么给出“大数据”这个名称,并想象它在存储和处理中所涉及的挑战。

你知道吗?存储在关系数据库管理系统中的数据是 “结构化”数据的一个示例 。

结构化数据的示例

数据库中的“Employee”表是结构化数据的一个示例

ID name sex department Salary_In_lacs
2365 Rajesh Kulkarni 金融 650000
3398 Pratibha Joshi 管理员 650000
7465 Shushil 管理员 500000
7500 Shubhojit Das 金融 500000

非结构化

任何具有未知形式或结构的数据被分类为非结构化数据。除了规模庞大之外,非结构化数据在其处理方面带来了多重挑战,从中得出价值。非结构化数据的典型示例是包含简单文本文件,图像,视频等的组合的多种数据源。现在一天机构有丰富的数据可用,但是不幸的是,他们不知道如何从中获得价值,因为此数据是其原始形式或非结构化格式。

非结构化数据的示例

由“Google搜索”返回的输出

061114_0759_WhatIsBigDa5.png

半结构化
半结构化数据可以包含数据的两种形式。我们可以看到半结构化数据作为一个有结构的形式,但它实际上没有定义与关系数据库管理系统中的表定义。半结构化数据的示例是以XML文件表示的数据。

半结构化数据的示例

存储在XML文件中的个人数据

<rec> <name> Prashant Rao </ name> <sex>男性</ sex> <age> 35 </ age> </ rec>
<rec> <name> Seema R。</ name> <sex>女性</ sex> <age> 41 </ age> </ rec>
<rec> <name> Satish Mane </ name> <sex>男性</ sex> <age> 29 </ age> </ rec>
<rec> <name> Subrato Roy </ name> <sex>男性</ sex> <age> 26 </ age> </ rec>
<rec> <name> Jeremiah J。</ name> <sex>男性</ sex> <age> 35 </ age> </ rec>

请注意,非结构化的Web应用程序数据由日志文件,事务历史文件等组成。OLTP系统构建为与结构化数据一起工作,其中数据以关系(表)存储。

“大数据”

I. 卷 - 名称“大数据”本身与巨大的大小有关。数据的大小在确定数据的价值中起着非常关键的作用。此外,特定数据是否实际上可以被认为是大数据,取决于数据量。因此,“卷”是处理“大数据”时需要考虑的一个特征。

II. 多样性 - “大数据”的下一个方面是其 多样性

多样性是指各种来源和数据的性质,包括结构化和非结构化。在早期,电子表格和数据库是大多数应用程序所考虑的唯一数据来源。如今,电子邮件,照片,视频,监控设备,PDF,音频等形式的数据也在分析应用程序中被考虑。这种各种非结构化数据对存储,挖掘和分析数据提出了一些问题。

III. 速度 - “速度”是指数据的生成速度。如何快速地生成和处理数据以满足需求,确定数据中的真实可能性。

大数据速度快速处理从来源(如业务流程,应用程序日志,网络和社交媒体网站,传感器,移动设备等)流入的数据。数据流是巨大和连续的。

IV. 可变性 - 这是指数据有时显示可以不一致,从而阻碍有效处理和管理数据的效率。

大数据处理的好处

处理“大数据”的能力带来了多重好处,例如

  • 企业可以在做决定时利用外部情报

从搜索引擎和Facebook,Twitter等网站访问社交数据使组织能够微调其业务战略。

  • 改善客户服务

传统的客户反馈系统正在被“大数据”技术设计的新系统所取代。在这些新系统中,大数据和自然语言处理技术被用于阅读和评估消费者的反应。

  • 及早识别产品/服务的风险,如果有的话

  • 更高的运营效率

“大数据”技术可用于在确定应将哪些数据移动到数据仓库之前为新数据创建存储区域。此外,“大数据”技术和数据仓库的这种集成有助于组织清理不常访问的数据。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,324评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,356评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,328评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,147评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,160评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,115评论 1 296
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,025评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,867评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,307评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,528评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,688评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,409评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,001评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,657评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,811评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,685评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,573评论 2 353

推荐阅读更多精彩内容