Anaconda使用总结 2016.7.19 PeterYuan 序 Python易用,但用好却不易,其中比较头疼的就是包管理和Python不同版本的问题,特别是当你使用Wi...
一、故障情景 基于Hive的数据仓库中需要做一张累积快照表,记录了客户发生各个行为的具体日期,比如激活日期、注册日期、申请日期、创建订单日期等等。 这张表需要以激活日期作为分...
我连第一题都不会。。。
网易大数据岗面试总结今天面了网易大数据的岗位,还真是挺难的,趁着还记着题目,把问到的题目记录于此: 笔试: 1、甲和乙下棋,一局中甲获胜的概率是2/3,乙获胜的概率是1/3,一方比另一方多赢两局...
前言: 上手kafka已有2年的时间,我们的数据处理量也从最初的300g/day发展到今天的T量级在这个过程中也踩了不少坑,在这里分享出来和大家共勉。 一、硬件考量 1.1、...
Hive数据倾斜总结 倾斜的原因: 使map的输出数据更均匀的分布到reduce中去,是我们的最终目标。由于Hash算法的局限性,按key Hash会或多或少的造成数据倾斜。...
干货啊
Hive数据倾斜总结Hive数据倾斜总结 倾斜的原因: 使map的输出数据更均匀的分布到reduce中去,是我们的最终目标。由于Hash算法的局限性,按key Hash会或多或少的造成数据倾斜。...