今日份bug
is_fans字段在dt=20190709分区下的数据有问题。脚本显示执行成功,但是查询数据错误,表现:is_fans字段全为0(理应有0有1)
原因:上游依赖表当时还没产出,没关联上。

20190420数据正常

20190709is_fans字段去重统计后只有一个值
发现bug历程:
1.本来多表大表join执行是很慢的,凌晨时执行日志很快就结束了(其他端倪:本来正常3个job,凌晨时日志上显示共4个job,并从stage1执行完直接跳到stage3执行)

数据错误的执行日志
2.show create table ads_user_fanslist; 查询产出表路径,复制location路径到hive>dfs -ls hdfs://nsl-backup/dw/ods/ods_user_fanslist; 再进入下层路径,找到今日产出的昨天的数据路径2019/07/10——可以看到产出时间为凌晨03:44,而脚本执行时间为凌晨一点,当时join关联用到的数据还没产出。

找路径

查看相关表产出时间
解决:调整脚本执行时间在相关数据产出后。