七月笔记

hadoop 查看表的分布ip及空间大小:hadoop fsck /user/hive/warehouse/db_test.db/demo/ -files -blocks -locations -racks

了解核心业务的基本流程和核心指标
PMO是什么
没有shuffle的聚合:使用累加器
海豚调度:失败恢复,给子job设置超时时间,超时自动跳过
transformer算子应用:黑名单放进transfromer算子中,可以周期性更新
updatestatebykey 可以用redis代替
foreachRDD 在DStream的数据保存到redis时候使用
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。