Airflow中的DAG问题排查

在Airflow中,DAG的跑批就是一个很漫长的过程,如果涉及到贴源层的表很多的时候,我们往往要花几天的时间去跑批,不出问题还好,一旦出现问题,真的就很难预计时间了。但是我们的测试时间往往都是被规定好的,在这个过程中在,怎么去权衡和提高效率就显得很重要了。
Airflow中遇到的问题大致有如下几种:
1、大数据相关的问题(又分为环境为题和元数据问题)
2、DAG中的SQL代码逻辑问题

1.DAG种的大数据相关的问题

在遇到这类问题的时候,我们往往都是找运维的同事帮忙或者自己解决。比如常见的一些错误。

  • Airflow出错,显示表匹配不到,原因:hive中元数据存在多条,导致匹配出错,删掉保留一条,重新跑,解决问题。
  • 测试环境dag上有这些配置需要注释掉(尤其是测试环境资源紧张的情况)

set mapreduce.map.memory.mb=20360(作用:调高map内存到156G)
set mapreduce.reduce.memory.mb=20360(作用:调高reduce内存到156G)

2.DAG中的SQL代码逻辑问题

DAG中的SQL代码问题,就需要根据具体的逻辑是进行判断和思考。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容