DataWhale《大数据处理技术导论》学习要点(一)
1、大数据“4V”:数据量大(Volume),数据类型多(Variety),处理速度快(Velocity),价值密度低(Value);
2、大数据技术:采集/收集、存储管理、处理分析挖掘预测可视化、数据安全、隐私保护;
3、Google原名“Googol”,意为10的100次方,创始人肖恩安德森在搜索改名字是否已被注册时误打;
4、Doug Cutting开发搜索引擎Lucene→Nutch(&Apache);
5、Google Nutch
谷歌文件系统GFS 分布式文件系统NDFS
大规模数据集并行分析运算MapReduce MapReduce
分布式文件存储系统BigTable Hbase
6、Hadoop生态圈组件
6.1 Common
主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的API。
6.2 Avro
数据文件格式
序列化:把对象转换为字节序列的过程。
反序列化:把字节序列恢复为对象的过程。
6.3 HDFS
为海量的数据提供了存储
6.4 MapReduce
为海量的数据提供了计算