失业在家,发点牢骚。
陆陆续续面了一些职位,跟朋友们也交流过,发现有些公司面试数据工程师确实挺有意思的,其中一种,就叫“我就是要用mapreduce我不听我不听我不听”。
所以到底为啥一定要用mapreduce?
我唯一的猜测,就是map reduce这种模型对于程序员们单线程的脑子来说,比sql来的简单,哦还有,schema-less,元数据这种事情最讨压了!
所以他们习惯于从文本文件里把数据读出来,然后若干个高度优化过的map reduce过程之后,得到了一个文本文件,然后再灌进mysql,数据处理完了。全套Java搞定,美滋滋。
稍微想一想,全用mapreduce 来处理数据有如下几个问题:
1.没有表
没有表意味着所有关于数据集的信息全部存在java code里,就像mongodb一样,不是没有模式,只是模式存在code里,别人想用就慢慢猜吧,所谓走自己的路让别人无路可走。
2.刻舟求剑的优化
有次去某云供应链公司面试,负责人跟我说他们觉得mapreduce更有控制力,更容易做优化,比如说对于数据倾斜可以预先把倾斜的key先提出来做处理等等,这种就叫做刻舟求剑式的优化,根据某一个时刻或者某一时期数据的状态来硬编码一些优化策略,等到下个月数据的状态变了,这些优化又要重做,不得加班加到死啊。
3.事倍功半
考虑一个企业数据分析的全流程,mr job 跟用hive相比,只省了建表的工作量,而且没有积累,昨天用mr job处理过的数据,为了和今天的新数据交互,还是要用mr job,once mr,alwayes mr。
hive只要加载到表里,后续工作可以用多种工具完成,比如spark,比如impala,比如presto等等,无论哪一种,都比mr job工作量少。
如果说2010年之前用mr job处理数据而不用hive是因为hive不够稳定不够好,现在还有什么理由?现在hive有tez有orc有llap,还有各种udf和udaf,还有各种分析函数,比起手写map reduce,不知道强大多少倍,到底是为啥不用hive?