##08.13
1、mapreduce 本质上是并行运行,优势在于处理大规模数据集
2、MapReduce 将输入数据划分成等长的小数据块,称为分片,为什么一个分片的最佳大小和hdfs块相同,因为如果分片跨两个数据块,两个数据块存储在同一个节点的可能性很小,所以会有数据在节点之间的传输,就不是本地化了,降低了效率
3、为什么Map阶段的结果存储到磁盘而不是hdfs,因为map输出的只是中间结果,一旦reduce结果输出,则map结果就可以删除,如果存储到hdfs并实现备份,难免小题大做如果map中间结果传输给reduce失败,则在另一节点重新启动该map任务
4、map 输出结果传递给reduce需要占用带宽,所以要尽量少的传输数据,因此,在map输出后,可以添加一个combiner函数来进行优化,但是combiner不能影响reduce最终的输出结果
5、MapReduce作业(job)ID 是由yarn资源管理器生成 包括两部分,资源管理器开始时间,唯一标识此应用由资源管理增量计数器生成的ID 如 job_141934293492_0003
任务ID 将job前缀换成task 如 task_141934293492_0003_m_00003,表示job_141934293492_0003的第4个map任务,任务可能失败,所以会有尝试ID,attempt_141934293492_0003_m_00003_0 表示该任务的第一次尝试
盘古开天,
三皇
天皇,地皇,人皇
有巢氏 教会人建筑
燧人氏 教会人用火
伏羲氏 教会人烹饪,固定配偶,抽丝纺织
女娲氏 补天, 共工氏和祝融氏为了争夺女娲的爱情决斗,共工氏败了,愤怒的撞向不周山,不周山断,天庭裂口,日月无光,狂风暴雨,女娲氏用五色石头烧炼,补天。杀死神龟,四脚支天,芦草烧灰,吸干天列漏下的大水,形成中原地区,华北平原
神农氏 尝百草,撰写《本草》,把可食用植物分为,小麦 稻米 高粱 玉蜀黍 动物分 狗 马 牛 猪,完成农业社会