hadoop作业监控dr-elephant启发式算法详解

Metrics测量指标

1. Used Resources

Job使用资源的数量,单位是:GB Hours

计算方式

我们将任务的资源使用定义为:所有mapper任务和所有reducer任务的资源使用的总和。

例如:

有如下的job:

4 mappers with runtime {12, 15, 20, 30} mins.

4 reducers with runtime {10 , 12, 15, 18} mins.

向yarn申请的容器大小为:4 GB

那么,

所有mapper使用的资源: 4 * (( 12 + 15 + 20 + 30 ) / 60 ) GB Hours = 5.133 GB Hours

所有reducer使用的资源: 4 * (( 10 + 12 + 15 + 18 ) / 60 ) GB Hours = 3.666 GB Hours

Job使用的总资源= 5.133 + 3.6666 = 8.799 GB Hours

2.Wasted Resources

资源浪费就是指资源浪费的数量,我们通过GB

hours或者百分比方式展示job浪费资源的数量。

计算方式

为了计算资源的浪费情况,我们需要先计算下面的指标:

1)Map和reduce任务中浪费的最小的内存大小

2)Map和reduce任务的运行时间


任务浪费的最小的内存大小= 申请的yarn容器的大小- 所有的任务中最大使用的内存大小

任务浪费的资源= 任务浪费的最小内存大小* 任务运行的时间,

job总的资源浪费 = 所有的任务浪费的资源总和


对于每一个任务我们定义如下:

peak_memory_used := task使用的内存上界

runtime := task运行时长


通过所有task中的最大使用的物理内存(max_physical_memory)和虚拟内存(virtual_memory)可以计算出任意task的peak_memory_used,又由于每个任务的上界通过max_physical_memory来确定,因此我们可以说每个任务的peak_memory_used可以通过下面的公式计算出来:

peak_memory_used = Max(max_physical_memory, virtual_memory/2.1)

其中2.1是集群的内存因子(该参数yarn.nodemanager.vmem-pmem-ratio对应的值)


每个task的最小内存浪费可以通过下面的公式计算:

wasted_memory = container_size - peak_memory_used


每个任务的最小资源浪费可以通过下面的公式计算:

wasted_resource = wasted_memory * runtime


总的资源的浪费情况就等于所有任务的wasted_resource的总和

3.Runtime

运行时间指标展示作业总的运行时间。

计算方式

Job的运行时间是通过job的完成时间减去job提交到yarn的资源管理器的时间计算出来的。

例如:

Job的开始时间是:1461837302868 ms

Job的完成时间是:1461840952182 ms

Job的运行时间是:1461840952182 - 1461837302868= 3649314 ms or 1.01 hours

4.Wait time

Job的等待时间是指job运行中花费在等待状态总的时间。

计算方式

对于每一个job我们定义如下的名词:

ideal_start_time := 所有任务都应该完成启动的理想的时间

finish_time := 任务完成时间

task_runtime := 任务运行时间


- Map tasks

对于map任务,我们定义如下:

ideal_start_time := job的开始时间


我们找出所有map任务中最长运行时间(task_runtime_max)和最后的完成时间( finish_time_last ),那么job中mapper的总的等待时间就可以通过如下的公式计算出来:

mapper_wait_time = finish_time_last - (ideal_start_time + task_runtime_max)


- Reduce tasks

对于reducer任务,我们定义如下:


ideal_start_time := 通过获取的reducer慢开始的百分比(mapreduce.job.reduce.slowstart.completedmaps:这个参数的含义是,当Map Task完成的比例达到该值后才会为Reduce Task申请资源,默认是0.05)并找到map任务完成之后最先开始的那个reducer,就可以计算出该参数


我们找到reducer任务最大运行时间( task_runtime_max)和最后完成的时间( finish_time_last )

那么job的reducer任务的总等待时间就可以使用如下公式计算出来:

reducer_wait_time =finish_time_last - (ideal_start_time + task_runtime_max)


total_wait_time = mapper_wait_time + reducer_wait_time

例如:


如上图:

对于map任务:

ideal_start_time = t1

task_runtime_max = Map_1对应的运行时间

finish_time_last = t4

mapper_wait_time = t4 – Map_1对应的运行时间– t1

对于reduce任务:

ideal_start_time = t2

task_runtime_max = Reduce_3对应的运行时间

finish_time_last = t6

reducer_wait_time = t6 -

Reduce_3对应的运行时间- t2

总的等待时间:

total_wait_time =mapper_wait_time + reducer_wait_time


MapReduce算法分析

1.Mapper数据倾斜

数据进入到Mapper作业中后,有可能会发生数据的倾斜,这种数据倾斜主要是考虑到HDFS文件大小差别太大导致的。

1)判断依据

根据每个map task运行的时间和数据量两个指标进行判定。

2)原理

Mapper数据倾斜启发式算法(mapper

data skew heuristic)会将所有的Mapper分成两部分,其中一部分的所有作业(task)的平均数据量会大于另一部分的平均数据量,之后根据这两个组的平均数据量的差值的绝对值/这两组数据中平均数据量的最小值来判断数据倾斜程度。时间方面的倾斜程度算法一样。

此图中的A和B两组的平均数据量和平均运行时间都差不多,没有发生数据倾斜

此图中A和B两组的平均运行时间差不多,但是平均数据量差别很大,最终导致严重程度为Critical,这说明该作业读取的hdfs中的数据文件大小差别太大,1)可能是有很多小文件, 2)也可能是文件大小超过block大小的10%以上一点,导致超出的部分又占用了一个block

3)计算步骤

(1)递归的计算作业输入数据量的平均值,然后根据作业的输入量平均值将所有的作业分成两组Group_A 和Group_B。

(2)计算各组的平均值,并求出数据量小的组的平均值(minAvg)和两组平均值之差的绝对值(diffAvgAbs)

(3)求出误差( diffAvgAbs/ minAvg ),根据误差和给定的误差级别(比如:{2, 4, 8, 16})计算严重程度severity

(4)计算出数据量小的那组的的task数量,并根据配置的task数量级别(比如:{10, 50, 100, 200})计算出task数量的严重程度taskSeverity

(5)取数据量大的那组的平均数据量,并根据配置的文件大小级别(比如:{1d / 8, 1d / 4, 1d / 2, 1d}其中的每个值需要乘以block的大小)计算出task数据量的严重程度fileSeverity

(6)求出上面计算出来的严重程度的最小值作为map 数据倾斜程度的结果。


2.Mapper GC

Mapper GC会分析任务的GC效率。它会计算出所有mapper的平均GC时间占平均CPU时间的比例。避免打扰用户,该算法在代码中设置了很宽松的范围(观察线上跑的结果发现确实没有GC报警的情况),但是如果分析的结果仍然报警的话,说明你的代码确实需要优化了。

1)判断依据

平均GC时间占平均CPU时间的比例,比例越高,严重程度越大,通常来说代码需要优化。

2)原理

计算出所有作业的平均的CPU使用时间、平均运行时间以及平均GC的时间。我们要计算Mapper GC严重度的最小值,这个值可以通过平均运行时间和平均垃圾回收时间占平均CPU总消耗时间的比例来计算。

3)计算步骤

(1)计算出平均CPU使用时间(avgCPU)、平均运行时间(avgRuntime)、平均GC时间(avgGC)。

(2)计算出平均GC时间占平均CPU时间的比例(gcRatio)

(3)使用gcRatio和误差级别(比如:{0.01d, 0.02d, 0.03d, 0.04d})计算严重程度gcSeverity

(4)使用平均运行时间和运行时间的级别(比如:{5, 10, 12, 15} 单位:分钟数)计算运行时间的严重程度runtimeSeverity

(5)取上面两个严重程度的最小值作为gc的严重程度。

3.Mapper的内存消耗

分析每个Mapper实际内存的消耗,并检查作业消耗的内存比例以及向yarn申请的容器的总内存,该指标用于分析用户申请的容器内存是否合理,比如:你申请了10G的yarn容器的内存,但是实际消耗内存却只有1G,说明你的任务浪费了很多内存资源,此时就会显示严重级别为critical,说明你需要减少每个mapper向yarn容器申请的内存资源的大小。

1)判断依据

task任务平均使用内存占向yarn容器所申请的内存的比例。比例越低说明内存资源浪费程度越高,需要优化,反之则说明资源利用率越高越好。

2)原理

计算平均内存消耗占用向yarn资源容器申请的内存大小比率,使用该比率结合设置的内存利用率级别判断mapper对内存的消耗是否合理。

此图对内存的消耗就不合理,因为申请的内存高达24G,但是实际使用的内存最大却只有6G左右,平均内存使用才3.7G左右,严重浪费内存资源。

3)计算步骤

(1)计算所有task的平均物理内存消耗(avgPhysicalMemory)、平均虚拟内存消耗(avgVirtualMemory)、平均运行时间(avgRuntime),并从该应用的配置文件中获取向yarn容器申请的内存大小(containerMemory)

(2)计算平均物理内存消耗(avgPhysicalMemory)和向yarn容器申请的内存大小(containerMemory)的比值(ratio)。

(3)使用上面的比值(ratio)结合内存利用率级别(比如:{0.6d, 0.5d, 0.4d, 0.3d}),计算出严重程度severity。

(4)再使用向yarn容器申请的内存大小(containerMemory)与容器级别(比如:{1.1d,

1.5d, 2.0d, 2.5d} 中的每一个值需要乘以yarn的配置文件中配置的默认的容器大小)计算出申请的容器的严重程度containerSeverity

(5)计算出上面两个严重级别的最小值作为内存消耗的严重级别

4.Mapper的运行速度

分析Mapper代码的运行效率。通过这些分析可以知道mapper属于CPU消耗型的,或者是mapper处理的数据量过大。通过这个能够分析出mapper运行速度快慢和处理的数据量大小之间的关系。

1)判断依据

         所有task的运行速度的中值作为判断mapper运行速度的依据,而运行速度是通过每个task的输入数据/运行时长得到的。

2)原理

         通过计算每个task的运行速度的中值,结合配置的磁盘的读取速度,判断出mapper任务的执行速度,但是需要排除运行时间过短导致的错误的结果。

此任务运行速度就太慢了,也可以推断出该任务是CPU消耗型任务。

3)计算步骤

(1)计算出运行速度的中值(medianSpeed)、运行时间的中值(medianRuntime)、输入数据量的中值(medianDataSize)

(2)使用运行速度中值(medianSpeed)结合运行速度的级别(比如:{1d / 2, 1d / 4, 1d / 8, 1d / 32} 每个值需要乘以磁盘的读取速度,默认100M/s)计算出严重级别speedSeverity。

(3)再使用运行时间的中值(medianRuntime)结合运行时间级别(比如:{5, 10, 15, 30})计算出运行时间的严重程度runtimeSeverity

(4)取speedSeverity和runtimeSeverity两个严重级别的较小者作为运行速度的严重级别。

5.Mapper溢出

该算法从磁盘IO的角度去评测mapper的性能。mapper溢出比例(溢出的记录数/总输出的记录数)是衡量mapper性能的一个重要指标:如果这个值接近2,表示几乎每个记录都溢出了,并临时写到磁盘两次(其中一次发生在内存排序缓存溢出时,另一次发生在归并排序所有溢出的切换时)。当这些发生时表明mapper输入输出的数据量过大了。

1)判断依据

总的溢出记录数和总的输出记录数的比值。

2)原理

计算出所有task的溢出记录数和所有task的输出记录数的比值,使用该比值进行mapper溢出严重程度的判断,该比值越大说明输入输出的数据量过大,需要进行优化以提高运行速度。

3)计算步骤

(1)计算出所有task的总的溢出记录数(totalSpillRecords)、总的输出记录数(totalOutputRecords),并计算出其比值(ratioSpill)

(2)使用上面计算的比值结合配置的溢出级别(比如:{2.01d, 2.2d, 2.5d, 3.0d})计算出溢出的严重程度spillSeverity。

(3)根据task的数量计算出任务数的严重程度taskNumberSeverity

(4)取上面两个小的严重程度作为溢出严重程度。

6.Mapper运行时间

这部分分析mappers的数量是否合适。通过分析结果,我们可以更好的优化任务中mapper的数量这个参数的设置。有以下两种情况发生时,这个参数的优化就显得很迫切了:

1)Mapper的运行时间很短,可能的原因如下:

mapper的数量过多

mapper的平均运行时间很短

文件尺寸太小

2)Mapper的运行时间很长,可能的原因包括:

mapper的数量很少

mapper的平均运行时间很长

文件的大小过大(个别文件是GB级别)

1)判断依据

         根据所有task运行的平均时长进行严重程度的判断

2)原理

         首先计算出所有task的平均运行时间,之后根据该平均运行时间计算出最短和最长的任务运行时长严重级别,取两个严重级别中较大的作为运行时长的严重级别。

3)计算步骤

(1)计算出所有task的平均输入大小(avgInputSize)、平均运行时长(avgRuntime)(2)根据平均运行时长(avgRuntime)结合短运行时长级别(比如:{10, 4, 2, 1} 其中的每个值代表的是分钟数)计算出短运行时长的严重级别shortSeverity

(3)根据任务数结合任务数的级别(比如:{50, 101, 500, 1000})计算出任务数的严重程度taskNumberSeverity

(4)取上面shortSeverity和taskNumberSeverity的较小值作为短运行时长的严重级别realShortSeverity

(5)根据平均运行时长(avgRuntime)结合长运行时长级别(比如:{15, 30, 60, 120} 其中的每个值代表的是分钟数)计算出长运行时长的严重级别longSeverity

(6)取realShortSeverity和longSeverity总的较大则作为运行时长的严重级别

7.Reducer数据倾斜

分析进入到每个Reduce中的数据是否有倾斜。该分析能够发现Reducer中是否存在这种情况,将Reduce分为两部分,其中一部分的输入数据量明显大于另一部分的输入数据量。

1)判断依据

根据每个reduce task运行的时间和数据量两个指标进行判定。

2)原理

Mapper数据倾斜启发式算法(reducer

data skew heuristic)会将所有的Reducer分成两部分,其中一部分的所有作业(task)的平均数据量会大于另一部分的平均数据量,之后根据这两个组的平均数据量的差值/这两组数据中平均数据量的最小值来判断数据倾斜程度。时间方面的倾斜程度算法一样。

3)计算步骤

(1)递归的计算作业输入数据量的平均值,然后根据作业的输入量平均值将所有的作业分成两组Group_A 和Group_B。

(2)计算各组的平均值,并求出数据量小的组的平均值(minAvg)和两组平均值之差的绝对值(diffAvgAbs)

(3)求出误差( diffAvgAbs/ minAvg ),根据误差和给定的误差级别(比如:{2, 4, 8, 16})计算严重程度severity

(4)计算出数据量小的那组的的task数量,并根据配置的task数量级别(比如:{10, 50, 100, 200})计算出task数量的严重程度taskSeverity

(5)取数据量大的那组的平均数据量,并根据配置的文件大小级别(比如:{1d / 8, 1d / 4, 1d / 2, 1d}其中的每个值需要乘以block的大小)计算出task数据量的严重程度fileSeverity

(6)求出上面计算出来的严重程度的最小值作为map 数据倾斜程度的结果。

8.Reducer GC

Reduce GC用于分析任务的GC效率,能够计算并告诉我们GC时间占所用CPU时间的比例。该算法在代码中设置了很宽松的范围,避免打扰用户,但是如果分析的结果任然报警的话,说明你的代码确实需要优化了。

1)判断依据

平均GC时间占平均CPU时间的比例,比例越高,严重程度越大,通常来说代码需要优化。

2)原理

首先,会计算出所有任务的平均CPU消耗时间、平均运行时间以及平均垃圾回收所消耗的时间。然后,算法会根据平均运行时间以及垃圾回收时间占平均CPU时间的比值来计算出最低的严重度。

3)计算步骤

(1)计算出平均CPU使用时间(avgCPU)、平均运行时间(avgRuntime)、平均GC时间(avgGC)。

(2)计算出平均GC时间占平均CPU时间的比例(gcRatio)

(3)使用gcRatio和误差级别(比如:{0.01d, 0.02d, 0.03d, 0.04d})计算严重程度gcSeverity

(4)使用平均运行时间和运行时间的级别(比如:{5, 10, 12, 15} 单位:分钟数)计算运行时间的严重程度runtimeSeverity

(5)取上面两个严重程度的最小值作为gc的严重程度。

9.Reducer内存消耗

分析每个Reducer实际内存的消耗,并检查作业消耗的内存比例以及向yarn申请的容器的总内存,该指标用于分析用户申请的容器内存是否合理,比如:你申请了10G的yarn容器的内存,但是实际消耗内存却只有1G,说明你的任务浪费了很多内存资源,此时就会显示严重级别为critical,说明你需要减少每个Reducer向yarn容器申请的内存资源的大小。

1)判断依据

task任务平均使用内存占向yarn容器所申请的内存的比例。比例越低说明内存资源浪费程度越高,需要优化,反之则说明资源利用率越高越好。

2)原理

计算平均内存消耗占用向yarn资源容器申请的内存大小比率,使用该比率结合设置的内存利用率级别判断reducer对内存的消耗是否合理。

此图对内存的消耗就不合理,因为申请的内存高达24G,但是实际使用的内存最大却只有6G左右,平均内存使用才3.7G左右,严重浪费内存资源。

3)计算步骤

(1)计算所有task的平均物理内存消耗(avgPhysicalMemory)、平均虚拟内存消耗(avgVirtualMemory)、平均运行时间(avgRuntime),并从该应用的配置文件中获取向yarn容器申请的内存大小(containerMemory)。

(2)计算平均物理内存消耗(avgPhysicalMemory)和向yarn容器申请的内存大小(containerMemory)的比值(ratio)。

(3)使用上面的比值(ratio)结合内存利用率级别(比如:{0.6d, 0.5d, 0.4d, 0.3d}),计算出严重程度severity。

(4)再使用向yarn容器申请的内存大小(containerMemory)与容器级别(比如:{1.1d,

1.5d, 2.0d, 2.5d} 中的每一个值需要乘以yarn的配置文件中配置的默认的容器大小)计算出申请的容器的严重程度containerSeverity 。

(5)计算出上面两个严重级别的最小值作为内存消耗的严重级别。

10.Reducer时间

这部分分析Reducer的执行效率,可以帮助我们更好的配置任务中reducer的数量;当出现以下两种情况时,说明Reducer的数量需要进行调优:

1)Reducer过多,hadoop任务可能的表现是:

Reducer数量过多

Reducer的运行时间很短

2)Reducer过少,hadoop任务可能的表现是:

Reducer数量过少

Reducer运行时间很长

1)判断依据

         根据所有task运行的平均时长进行严重程度的判断

2)原理

         首先计算出所有task的平均运行时间,之后根据该平均运行时间计算出最短和最长的任务运行时长严重级别,取两个严重级别中较大的作为运行时长的严重级别。

任务数多,运行时长过短,属于严重级别的

运行时长计算:属于严重级别的

任务数方面计算:属于None级别的

取上面两个级别的较小者None级别作为最终的严重级别。

3)计算步骤

(1)计算出所有task的最大运行时长(minRuntime)、最小运行时长(maxRuntime)、平均运行时长(avgRuntime)(2)根据平均运行时长(avgRuntime)结合短运行时长级别(比如:{10, 4, 2, 1} 单位:分钟)计算出短运行时长的严重级别shortSeverity

(3)根据任务数结合任务数的级别(比如:{50, 101, 500, 1000})计算出任务数的严重程度taskNumberSeverity

(4)取上面shortSeverity和taskNumberSeverity的较小值作为短运行时长的严重级别realShortSeverity

(5)根据平均运行时长(avgRuntime)结合长运行时长级别(比如:{15, 30, 60, 120}单位:分钟数)计算出长运行时长的严重级别longSeverity

(6)取realShortSeverity和longSeverity总的较大则作为运行时长的严重级别

11.洗牌和排序

分析reducer消耗的总时间以及reducer在进行洗牌和排序时消耗的时间,通过这些分析,可以判断reducer的执行效率。

1)判断依据

         所有task的平均shuffle时长和平均sort时长进行判断的,取两者中较大的作为洗牌和排序的严重级别

2)原理

         首先计算出所有的task的平均shuffle时长和平均sort时长,之后再分别与平均执行时长(totalTime - shuffleTime - sortTime)进行相除,计算出shuffle和sort的严重级别,取两者中较大的作为洗牌和排序的严重级别。

其中后面的X代表倍数的意思,计算方式是:avgShuffleTime / avgCodeTime 和avgSortTime /

avgCodeTime。

此图显示shuffle的时间很长,但是sort的时间很短,说明你需要调整slowstart参数"mapreduce.job.reduce.slowstart.completedmaps"从0.90 调大一些,要小于1.0。但是需要注意的是,调整此参数可以降低shuffle的时间,但是可能会增加整个job的运行时间。 

3)计算步骤

(1)计算出所有task的平均执行时长(avgExecuteTime)、平均shuffle时长(avgShuffleTime)、平均sort时长(avgSortTime)

(2)将平均shuffle时长结合运行时长的级别(比如:{1, 5, 10, 30} 单位:分钟数)计算出shuffle的严重级别shuffleSeverity

(3)计算shuffleRatio = avgShuffleTime* 2 / avgExecuteTime,之后使用shuffleRatio结合运行比率级别(比如:{1, 2, 4, 8})计算出shuffle运行比率级别shuffleRatioSeverity

(4)取shuffleSeverity 和shuffleRatioSeverity的较小者作为真正的shuffle严重级别realShuffleSeverity

(5)将平均sort时长(avgSortTime)结合运行时长的级别(比如:{1, 5, 10, 30}单位:分钟数)计算出sort的严重级别sortSeverity

(6)计算sortRatio = avgSortTime * 2 /avgExecuteTime,之后使用sortRatio结合运行比率级别(比如:{1, 2, 4, 8})计算出sort运行比率级别sortRatioSeverity

(7)取sortSeverity和sortRatioSeverity的最小值作为真正的shuffle严重级别realSortSeverity

(8)取realShuffleSeverity和realSortSeverity中较大者作为洗牌和排序的严重级别

参考文献:

1. CSDN一位大牛写的文章:

https://zhuanlan.zhihu.com/p/20855271?refer=dr-elephant

2. Dr-elephant官方文档:

https://github.com/linkedin/dr-elephant/wiki/Metrics-and-Heuristics

3. 线上跑的dr-elephant程序web页面

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容

  • 摘自:http://staticor.io/post/hadoop/2016-01-23hadoop-defini...
    wangliang938阅读 589评论 0 1
  • 目的这篇教程从用户的角度出发,全面地介绍了Hadoop Map/Reduce框架的各个方面。先决条件请先确认Had...
    SeanC52111阅读 1,713评论 0 1
  • MapReduce框架结构## MapReduce是一个用于大规模数据处理的分布式计算模型MapReduce模型主...
    Bloo_m阅读 3,735评论 0 4
  • 有时候,回想以前,恍如隔世。 现在的日子不咸不淡,也好久没跟你说会话了。 好多以前相信的话语,现在也没有那么坚定了...
    洋葱葱阅读 334评论 16 8
  • 将冬的天津 树叶长成眼睛喜欢的色彩 有为我种下的后悔,不是悔恨 不是眼里如初 天空如水 无以回报,其疾疾似矢 也如...
    Amaorent阿毛的空瓶子阅读 192评论 0 11