【大数据】概论

1. 背景:算力提升、通信带宽提升、无线通信速率提升、互联网的发展以及普及率的提升、计算设备数量快速增长。

2. 四个驱动:摩尔定律驱动的指数增长模式; 技术低成本化驱动的万物数字化; 宽带、移动、泛在互联驱动的人、机、物广泛联接; 云计算模式驱动的数据大规模汇聚。

存储、算例、网络、智能发展的产物。

3. 大数据定义:

① 技术能力方面:规模超过现有数据处理工具、获取、管理和分析能力的数据集。

② 内涵:具备海量Volume、高速Velocity、多样Variety、难辨真伪Veracity、有价值Value特征的多维数据集(5V)

4. 大数据 \neq  海量数据             大数据是具备5V特性的海量数据,海量是大数据其中一个特征。

5. 大数据分析目标:实现对目标对象的认知,提供决策建议。

6. 大数据分析四个层次:

① 描述分析        What happened?

② 诊断分析        Why happened?

③ 预测分析        What will happen?

④ 规范分析        How can make it happen ideally?

7. 大数据分析涉及技术:

① 数据采集:将分布、异构数据源进行清洗、集成加载到数据仓库中

② 数据存储和管理:用分布式文件系统,数据库等对结构化、非结构化数据进行存储和管理

③ 数据处理与分析:用计算框架,结合机器学习方法,对数据进行分析

④ 数据隐私和安全:建立隐私数据保护体系和数据安全体系,保护隐私和数据安全

8. 可扩展算法:Scalability_{A(n)}=\frac{T_{A(n)}}{n} =O(log^cn),  c>0

T_{A(n)}=O(nlog^cn)说明该算法是可扩展的。

9. 大数据算法与传统算法对比:

大数据算法以优化为中心,通过多轮迭代直至收敛。

传统算法以操作为中心,每一步正确保证了结果的正确。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。