2019-07-11代码逻辑正确并执行成功,但查询数据出错

今日份bug

      is_fans字段在dt=20190709分区下的数据有问题。脚本显示执行成功,但是查询数据错误,表现:is_fans字段全为0(理应有0有1)

原因:上游依赖表当时还没产出,没关联上。


20190420数据正常
20190709is_fans字段去重统计后只有一个值


发现bug历程:

1.本来多表大表join执行是很慢的,凌晨时执行日志很快就结束了(其他端倪:本来正常3个job,凌晨时日志上显示共4个job,并从stage1执行完直接跳到stage3执行)


数据错误的执行日志

2.show create table ads_user_fanslist;   查询产出表路径,复制location路径到hive>dfs -ls hdfs://nsl-backup/dw/ods/ods_user_fanslist; 再进入下层路径,找到今日产出的昨天的数据路径2019/07/10——可以看到产出时间为凌晨03:44,而脚本执行时间为凌晨一点,当时join关联用到的数据还没产出。

找路径


查看相关表产出时间

解决:调整脚本执行时间在相关数据产出后。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容