hadoop 查看表的分布ip及空间大小:hadoop fsck /user/hive/warehouse/db_test.db/demo/ -files -blocks -locations -racks 了解核心业务的基本流程和核心指标 PMO是什么 没有shuffle的聚合:使用累加器 海豚调度:失败恢复,给子job设置超时时间,超时自动跳过 transformer算子应用:黑名单放进transfromer算子中,可以周期性更新 updatestatebykey 可以用redis代替 foreachRDD 在DStream的数据保存到redis时候使用