注:本文涉及书中5.1~5.7小结 MapReduce编程流程 step1. 首先写map函数和reduce函数,并使用单元测试来确保函数的运行符合预期。 step2. 写一...
注:本文涉及书中5.1~5.7小结 MapReduce编程流程 step1. 首先写map函数和reduce函数,并使用单元测试来确保函数的运行符合预期。 step2. 写一...
大家好,我是帅气小伙,好久没更新了,因为实在没用新的知识和大家分享了,最近刚刚走向实习岗位,开始接触Java后台这个领域,经过这3天的学习,基本上对Spring+Spring...
注:本文涉及书中4.5小结 基于文件的数据结构 有两种文件格式: 1. SequenceFile 2. MapFile · SequenceFile SequenceFile...
注:本文涉及书中4.4小结 数据序列化系统Avro Apache Avro是一个独立于编程语言的数据序列化系统,旨在解决Hadoop中Writable类型缺乏语言的可移植性问...
注:本文涉及书中4.3小结 序列化与反序列化 1. 定义 序列化(serialization):将结构化对象转化为字节流。 反序列化(deserialization):将字节...
注:本文涉及书中4.2小结 文件压缩 好处:减少存储文件的磁盘空间,加速网络和磁盘的数据传输。 所有的压缩方法都要权衡空间/时间,也就是说,压缩和解压的速度越快,节约的空间越...
注:本文涉及书中4.1小结 数据完整性 1. HDFS的完整性检测 检测数据损坏的方法:计算校验和。 以下情况HDFS会检测数据的完整性: (1)HDFS会对写入的所有数据计...
注:本文涉及书中3.9小结 Hadoop存档 1. 综述 Hadoop存档文件或HAR文件,是一个高效的文件存档工具,它将文件存入HDFS块,在减少namenode内存使用的...
注:本文涉及书中3.7~3.8小结 使用现成的工具将数据导入HDFS中 可以使用现成的工具,如Flume和Sqoop,而非写程序来将数据导入HDFS中。 1. Apache ...
注:本文涉及书中3.6小结 数据流 1. 文件读取 结合上图,客户端通过调用FileSystem对象的open()方法来打开希望读取的文件 step1. Distribute...
注:本文涉及书中3.4~小结 Hadoop的文件系统 Hadoop有很多文件系统,HDFS只是其中的一个。Java抽象类org.apache.hadoop.fs.FileSy...
注:本文涉及书中3.3小结 命令行接口 书中3.3小节给出了命令行交互HDFS的过程:首先介绍了伪分布式下运行HDFS,然后介绍了集群中运行HDFS。 1. 伪分布式环境 两...
注:本文涉及书中3.1~3.2小结 1. HDFS的特点 1. HDFS以流式数据访问模式来存储超大文件,运行于商用硬件集群上。 何为“流式数据访问”??? 答:HDFS的构...
注:本文涉及书中2.4~2.6小结 横向扩展(scaling out) 横向扩展,即将数据存储在分布式文件系统中,一般为HDFS,由此允许Hadoop将MapReduce计算...
注:本文涉及书中2.1~2.3小结 1. MapReduce任务过程:map和reduce MapReduce任务过程分为两个处理阶段:map阶段和reduce阶段。每个阶段...
· 前言 没有任何大数据的基础,想在自己的笔记本上尝试搭建一下Hadoop · 言归正传 Hadoop的部署方式有三种,分别是: (1)本地模式 a. 默认情况下,Hadoo...
0. 写在最前 某乎的高票答案,《Hadoop权威指南》是Hadoop入门的必备书籍,目前该书的最新版为第四版,但只有英文版,还没有中译版,为了加快阅读速度,我选择了第三版的...
用例子讲述了“面向过程”与“面向对象”之间的区别 面向对象包括类、方法和属性 类是对象的蓝图,一个类可以有很多对象,根据某类创建出的对象都会有自己的实例变量。 覆盖:由子类重...
Java的编译和运行过程 step1. 编写源文件(.java) step2. 编译器编译.java,产生类文件(.class文件) step3. 启动Java虚拟机(JVM...
《Head First Java》私人阅读笔记 欢迎讨论、私信和补充