为了理解“大数据”,我们首先需要知道“数据”是什么。牛津字典将“数据”定义为
“由计算机执行操作的数量,字符或符号,其可以以电信号的形式存储和传输并记录在磁性,光学或机械记录介质上。
因此,“大数据”也是一个数据,但具有巨大的规模。“大数据”是用来描述数据的集合,体积庞大,而且随着时间成倍增长,简而言之,数据是如此庞大而复杂,没有传统的数据管理工具能够存储它或有效地处理它。
“大数据”
以下是一些“大数据”
- 在纽约股票交易所每天产生新的贸易数据约1TB。
- 统计数据显示,每天有500多万亿字节的新数据被存入社交媒体网站Facebook的数据库 。这些数据主要是通过照片和视频上传,消息交换,发表评论等方式生成的。
- 单喷气发动机,可在30分钟的飞行时间内产生10+TB的数据。每天有数千次航班,数据的生成达到了许多PB。
大数据分类
大数据“可以有三种形式:
- 结构化的
- 非结构化
- 半结构化
结构化的
可以以固定格式的形式存储,访问和处理的任何数据被称为“结构化”数据。在这段时间内,计算机科学的人才在开发处理这类数据的技术方面取得了更大的成功(其中格式是预先知道的),并且从中获得价值。然而如今,我们预见到数据大小增长的问题,甚至到达数ZB的大小。
你知道吗?10^21字节等于1ZB或100wTB形成1ZB。
看看这些数字,可以很容易地理解为什么给出“大数据”这个名称,并想象它在存储和处理中所涉及的挑战。
你知道吗?存储在关系数据库管理系统中的数据是 “结构化”数据的一个示例 。
结构化数据的示例
数据库中的“Employee”表是结构化数据的一个示例
ID | name | sex | department | Salary_In_lacs |
---|---|---|---|---|
2365 | Rajesh Kulkarni | 男 | 金融 | 650000 |
3398 | Pratibha Joshi | 女 | 管理员 | 650000 |
7465 | Shushil | 男 | 管理员 | 500000 |
7500 | Shubhojit Das | 男 | 金融 | 500000 |
非结构化
任何具有未知形式或结构的数据被分类为非结构化数据。除了规模庞大之外,非结构化数据在其处理方面带来了多重挑战,从中得出价值。非结构化数据的典型示例是包含简单文本文件,图像,视频等的组合的多种数据源。现在一天机构有丰富的数据可用,但是不幸的是,他们不知道如何从中获得价值,因为此数据是其原始形式或非结构化格式。
非结构化数据的示例
由“Google搜索”返回的输出
半结构化
半结构化数据可以包含数据的两种形式。我们可以看到半结构化数据作为一个有结构的形式,但它实际上没有定义与关系数据库管理系统中的表定义。半结构化数据的示例是以XML文件表示的数据。
半结构化数据的示例
存储在XML文件中的个人数据
<rec> <name> Prashant Rao </ name> <sex>男性</ sex> <age> 35 </ age> </ rec>
<rec> <name> Seema R。</ name> <sex>女性</ sex> <age> 41 </ age> </ rec>
<rec> <name> Satish Mane </ name> <sex>男性</ sex> <age> 29 </ age> </ rec>
<rec> <name> Subrato Roy </ name> <sex>男性</ sex> <age> 26 </ age> </ rec>
<rec> <name> Jeremiah J。</ name> <sex>男性</ sex> <age> 35 </ age> </ rec>
请注意,非结构化的Web应用程序数据由日志文件,事务历史文件等组成。OLTP系统构建为与结构化数据一起工作,其中数据以关系(表)存储。
“大数据”
I. 卷 - 名称“大数据”本身与巨大的大小有关。数据的大小在确定数据的价值中起着非常关键的作用。此外,特定数据是否实际上可以被认为是大数据,取决于数据量。因此,“卷”是处理“大数据”时需要考虑的一个特征。
II. 多样性 - “大数据”的下一个方面是其 多样性。
多样性是指各种来源和数据的性质,包括结构化和非结构化。在早期,电子表格和数据库是大多数应用程序所考虑的唯一数据来源。如今,电子邮件,照片,视频,监控设备,PDF,音频等形式的数据也在分析应用程序中被考虑。这种各种非结构化数据对存储,挖掘和分析数据提出了一些问题。
III. 速度 - “速度”是指数据的生成速度。如何快速地生成和处理数据以满足需求,确定数据中的真实可能性。
大数据速度快速处理从来源(如业务流程,应用程序日志,网络和社交媒体网站,传感器,移动设备等)流入的数据。数据流是巨大和连续的。
IV. 可变性 - 这是指数据有时显示可以不一致,从而阻碍有效处理和管理数据的效率。
大数据处理的好处
处理“大数据”的能力带来了多重好处,例如
- 企业可以在做决定时利用外部情报
从搜索引擎和Facebook,Twitter等网站访问社交数据使组织能够微调其业务战略。
- 改善客户服务
传统的客户反馈系统正在被“大数据”技术设计的新系统所取代。在这些新系统中,大数据和自然语言处理技术被用于阅读和评估消费者的反应。
及早识别产品/服务的风险,如果有的话
更高的运营效率
“大数据”技术可用于在确定应将哪些数据移动到数据仓库之前为新数据创建存储区域。此外,“大数据”技术和数据仓库的这种集成有助于组织清理不常访问的数据。