今天做了一个有趣的事。
老公让我还写前几天写的wordcount代码,我突然想到了官方的wordcount代码的分析,hello world hello hadoop,第一个被读入的单词是hello,但是从map端出来的结果,hadoop是第一个,因为在map端有个排序过程,进而想到,如果string型都可以排序,那么int型更应该可以,进而想到之前老公让我写过一个排序的MR,如果在这个MR里面,我什么都不做,只是读数据,然后把接受到的数据什么都不做的传下去,最后在写出来,是什么效果。
有了想法,改了代码,结果出来了,如果什么都不做,出来的随机数据是被排序过的。
但是,由于数据量比较大,一亿条,所以处理速度比较慢,没有具体记录,但是感官上觉得,比自己写代码慢。