Airflow是什么
- Airflow 是 Airbnb 开发的用于工作流管理的开源项目,自带 web UI 和调度。它支持编程方式创建工作流,同时在平台上管理和监控工作流程的状态。
- Airflow 于2016年3月加入了Apache Software Foundation的孵化计划,所以它未来的持续维护性有保障。
- 官方地址:https://github.com/apache/airflow,现有11318个star,732个贡献者,是一个热门的开源项目。
- 先看下这篇介绍 :浅谈调度工具——Airflow
为什么使用Airflow
- 智能调度
- 图形化展示任务关系
- 程序化流水线定义
- 流水线间数据交互
- 扩展性强
- 分布式,可靠性高
- 执行方式多样化,除了定时执行还可手动触发,api触发等
Airflow常用的场景
Airflow主要用于执行预定的批处理作业。它能够很好地管理不同的批量作业的关系,并给将复杂的关系图形化展示。
- 系统或运用的日常维护任务,批量作业
- CD部署任务,灰度发布,蓝绿部署等
- 数据分析,数据流管道管理
一句话:任何批量任务或者需要手动去触发执行的任务都可以考虑一下Airflow
Airflow安装
airlow使用ansible role方式安装 https://github.com/idealista/airflow-role
- 安装准备软件ansible、gcc、python-devel
$ yum install ansible gcc python-devel -y
- 创建文件
requirements.yml
- src: idealista.airflow-role
version: 1.0.0
name: airflow
- 下载airflow role
$ ansible-galaxy install -p roles -r requirements.yml -f
- 更改role中的install.yml
将roles/airflow/tasks/install.yml中的apt
模块改成package
模块
将roles/airflow/tasks/install.yml中的Copy Daemon scripts中的when条件去掉
$ cat roles/airflow/tasks/install.yml
...
- name: Airflow | Installing dependencies
package:
name: "{{ item }}"
state: present
with_items: "{{ airflow_required_libs }}"
...
- name: Airflow | Copy Daemon scripts
template:
src: "{{ item.key }}.service.j2"
dest: /lib/systemd/system/{{ item.key }}.service
mode: 0644
notify: restart {{ item.key }}
with_dict: "{{ airflow_services }}"
更改role下的config.yml及templates/airflow-***.service.j2文件
将/usr/local/bin/airflow
改为/usr/bin/airflow
$ cat roles/airflow/tasks/config.yml
...
- name: Airflow | Initializing DB
shell: AIRFLOW_HOME={{ airflow_home }} airflow initdb
...
$ cat roles/airflow/templates/airflow-webserver.service.j2
...
ExecStart=/usr/bin/airflow webserver --pid /run/airflow/webserver.pid
...
目的该role使用pkg只能在Debian 或 Ubuntu 环境下安装,更改后,可以在centos环境下安装
- 更新ansible的hosts文件
$ cat /etc/ansible/hosts
127.0.0.1 ansible_connection=local
- 创建部署airflow的ansible yaml
$ cat airflow.yml
---
- hosts: all
roles:
- { role: airflow }
- 安装airflow
$ ansible-playbook airflow.yml
执行完以上操作后本机就安装好了airflow,同时也配置好了service等。
- 手动初始化db
$ HOME=/etc/airflow; airflow initdb
- 更新配置/etc/airflow/airflow.cfg
$ cat /etc/airflow/airflow.cfg
...
max_threads = 1
dagbag_import_timeout = 30
...
- 启动airflow-worker
$ systemctl restart airflow-worker
安装好后展示
问题记录
- 如果使用CeleryExecutor,可以安装Celery管理器flower。,默认会安装tornado最新版本,需要限定tornado版本需限制在4.2.0。安装完成后运行
AIRFLOW_HOME=/etc/airflow airflow flower
- 使用Mysql作为后台数据库时,安装mysql扩展请安装mysql-python。
同时broker_url设置为broker_url = mysql://airflow:airflow@localhost:3306/airflow
- 测试Airflow中的DAG时,需要在界面上将它先把状态改为On后,再点击运行。
相关文章
Airflow中文文档
任务调度神器 airflow 之初体验
airflow 安装,部署,填坑
airflow 配置 CeleryExecutor
浅谈调度工具——Airflow
如何部署一个健壮的 apache-airflow 调度系统
Airflow工作模式及适用场景
浅谈调度工具——Airflow