大数据时代的数据存在如下几个特点:多源异构、分布广泛、动态增长、先有数据后有模式。
正是这些与传统数据管理迥然不同的特点,使得大数据时代的数据管理面临新的挑战。
1. 数据集成的挑战
数据集成的挑战主要有两个方面:
(1)广泛的异构性:①数据类型从以结构化数据为主转向结构化、半结构化、非结构化三者的融合。②数据产生方式的多样性带来的数据源变化。
(2)数据质量:数据量大不一定就代表信息量或者数据价值的增大,相反很多时候意味着信息垃圾的泛滥。
2. 数据分析的挑战
随着大数据时代的到来,半结构化和非结构化数据量的迅猛增长,给传统的分析技术带来了巨大的冲击和挑战,主要体现在:
(1)数据处理的实时性:随着时间的流逝,数据中所蕴含的知识价值往往也在衰减,因此很多领域对于数据的实时处理有需求。在实时处理的模式选择中,主要有三种思路:即流处理模式、批处理模式以及二者的融合。虽然已有的研究成果很多,但仍未有一个通用的大数据实时处理框架。
(2)动态变化环境中索引的设计:关系数据库中的索引能够加速查询速率,但是传统数据管理中的模式基本不会发生变化,因此在其上构建索引主要考虑的是索引创建、更新的效率等。大数据时代的数据模式随着数据量的不断变化可能会处于不断的变化之中,这就要求索引结构的设计简单、高效,能够在数据模式发生变化时快速调整并适应。目前,存在一些通过在NoSQL数据库上构建索引来应对大数据挑战的一些方案,但总得来说,这些方案基本都有特定的应用场景,且这些场景的数据模式不太会发生变化。在数据模式变更的假设前提下设计新的索引方案将是大数据时代的主要挑战之一。
(3)先验知识的缺乏:传统分析主要针对结构化数据展开,这些数据在以关系模型进行存储的同时就隐含了这些数据内部关系的先验知识。比如我们知道所要分析的对象会有哪些属性,通过属性我们又能大致了解其可能的取值范围等。这些知识使得我们在数据分析之前就已经对数据有了一定的理解。而在面对大数据分析时,一方面是半结构化和非结构化数据的存在,这些数据很难以类似结构化数据的方式构建出其内部的正式关系;另一方面很多数据以流的形式源源不断的到来,这些需要实时处理的数据很难有足够的时间去建立先验知识。
3.数据隐私与安全的挑战
数据隐私与安全的挑战主要有以下几点:
(1)隐形的数据暴露:大数据时代的隐私保护面临着技术和人力层面的双重考验。
(2)数据公开与隐私保护的矛盾:如果仅仅为了保护隐私就将所有的数据都加以隐藏,那么数据的价值根本无法体现。数据公开是非常有必要的,大数据时代的隐私性主要体现在不暴露用户敏感信息的前提下进行有效的数据挖掘,这有别于传统的信息安全领域更加关注文件的私密性等安全属性。但是数据信息量和隐私之间是有矛盾的,Dwork在2006年提出了新的差分隐私方法。差分隐私保护技术可能是解决大数据中隐私保护的一个方向,但是这项技术离实际应用还很远。
(3)数据动态性:大数据时代数据的快速变化除了要求有新的数据处理技术应对之外,也给隐私保护带来了新的挑战。现有隐私保护技术主要基于静态数据集,而在现实中,数据模式和数据内容时刻都在发生着变化,因此在这种更加复杂的环境下实现对动态数据的利用和隐私保护将更具挑战。
4.大数据能耗的挑战
在能源价格上涨、数据中心存储规模不断扩大的今天,高耗能已逐渐成为制约大数据快速发展的瓶颈。从小型集群到大规模数据中心都面临着降低能耗的问题,但是尚未引起足够的重视,相关的研究成果也较少。在大数据管理系统中,能耗主要由两大部分组成:硬件能耗和软件能耗,二者之中又以硬件能耗为主。理想状态下,整个大数据管理系统的能耗应该和系统利用率成正比。但是实际情况并不像预期情况,系统利用率为0的时候仍然有能量消耗。
从已有的一些研究成果来看,可以从以下两个方面改善大数据能耗问题:①采用新型低功耗硬件。②引入可再生的新能源。
总结:数据集成的挑战、数据分析的挑战、数据隐私与安全的挑战、大数据能耗的挑战。