2023-02-15

                                          DataWhale《大数据处理技术导论》学习要点(一)

1、大数据“4V”:数据量大(Volume),数据类型多(Variety),处理速度快(Velocity),价值密度低(Value);

2、大数据技术:采集/收集、存储管理、处理分析挖掘预测可视化、数据安全、隐私保护;

3、Google原名“Googol”,意为10的100次方,创始人肖恩安德森在搜索改名字是否已被注册时误打;

4、Doug Cutting开发搜索引擎LuceneNutch(&Apache);

5、Google                                                                                           Nutch  

谷歌文件系统GFS                                                                               分布式文件系统NDFS

大规模数据集并行分析运算MapReduce                                              MapReduce

分布式文件存储系统BigTable                                                               Hbase

6、Hadoop生态圈组件

Hadoop生态系统

6.1 Common

主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的API。

6.2  Avro

数据文件格式

序列化:把对象转换为字节序列的过程。

反序列化:把字节序列恢复为对象的过程。

6.3  HDFS

为海量的数据提供了存储

6.4 MapReduce

为海量的数据提供了计算

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容