【Docker搭建airflow】

【Docker搭建airflow】

参考链接:https://airflow.apache.org/docs/apache-airflow/stable/start/docker.html#docker-compose-env-variables

步骤:

(1) 从官网拉取yaml文件

获取一个yaml文件,参考如下:

version: '2.1'

services:

   redis:

       image: redis:latest

       ports:

           - "61379:6379"

       # command: redis-server --requirepass redispass

   postgres:

       image: postgres:13

       ports:

           - "5432:5432"

       environment:

           - POSTGRES_USER=airflow

           - POSTGRES_PASSWORD=airflow

           - POSTGRES_DB=airflow

       # Uncomment these lines to persist data on the local filesystem.

       #     - PGDATA=/var/lib/postgresql/data/pgdata

       # volumes:

       #     - ./pgdata:/var/lib/postgresql/data/pgdata

   webserver:

      # image: puckel/docker-airflow:1.9.0-2

      # image: ${AIRFLOW_IMAGE}

      # image: apache/airflow:2.2.0

       image: metrodata.hub.com/airflow_centos_py3:1.10

       restart: always

       depends_on:

#           - postgres

           - redis

       volumes:

           - ./airflow.cfg:/root/airflow/airflow.cfg

           - ./dags:/root/airflow/dags

           - ./logs:/root/airflow/logs

           - /opt:/opt:ro

       dns:

           - 223.5.5.5

       ports:

           - "61080:8080"

       environment:

           - C_FORCE_ROOT=true

       command: airflow webserver

       healthcheck:

           test: ["CMD-SHELL", "[ -f /root/airflow/airflow-webserver.pid ]"]

           interval: 30s

           timeout: 30s

           retries: 3

   flower:

       #image: puckel/docker-airflow:1.9.0-2

       #image: ${AIRFLOW_IMAGE}

       #image: apache/airflow:2.2.0

       image: metrodata.hub.com/airflow_centos_py3:1.10

       restart: always

       depends_on:

           - redis

       dns:

           - 223.5.5.5

       ports:

           - "64555:5555"

       environment:

           - C_FORCE_ROOT=true

       command: airflow flower

   scheduler:

       #image: puckel/docker-airflow:1.9.0-2

       #image: ${AIRFLOW_IMAGE}

       #image: apache/airflow:2.2.0

       image: metrodata.hub.com/airflow_centos_py3:1.10

       restart: always

       depends_on:

           - webserver

       dns:

           - 223.5.5.5

       environment:

           - C_FORCE_ROOT=true

       volumes:

           - ./airflow.cfg:/root/airflow/airflow.cfg

           - ./dags:/root/airflow/dags

           - ./logs:/root/airflow/logs

           - /opt:/opt

       command: airflow scheduler

   worker:

       #image: ${AIRFLOW_IMAGE}

       #image: apache/airflow:2.2.0

       #image: puckel/docker-airflow:1.9.0-2

       image: metrodata.hub.com/airflow_centos_py3:1.10

       restart: always

#        network_mode: host

       depends_on:

           - scheduler

       dns:

           - 223.5.5.5

       environment:

           - C_FORCE_ROOT=true

       volumes:

           - ./airflow.cfg:/root/airflow/airflow.cfg

           - ./dags:/root/airflow/dags

           - ./logs:/root/airflow/logs

           - /opt:/opt

       command: airflow worker

备注:以上配置文件中使用的镜像(metrodata.hub.com/airflow_centos_py3:1.10)可以在百度网盘中下载:

https://pan.baidu.com/s/1oxUiNYxcU_FinhHhXbkuYQ 提取码:yzws

下载之后:

docker load -i aa.tar

(2)配置一个配置文件airflow.cfg,参考如下:

[core]

airflow_home = /root/airflow

dags_folder = /root/airflow/dags

base_log_folder = /root/airflow/logs

remote_log_conn_id =

encrypt_s3_logs = False

logging_level = INFO

logging_config_class =

log_format = [%%(asctime)s] {{%%(filename)s:%%(lineno)d}} %%(levelname)s - %%(message)s

simple_log_format = %%(asctime)s %%(levelname)s - %%(message)s

#executor = SequentialExecutor

executor = CeleryExecutor

sql_alchemy_conn = postgresql+psycopg2://airflow:airflow@10.253.14.131:5432/airflow

## 注,上述ip 10.253.14.131为airflow服务器自身的服务器ip

sql_alchemy_pool_size = 5

sql_alchemy_pool_recycle = 3600

parallelism = 32

dag_concurrency = 16

dags_are_paused_at_creation = True

non_pooled_task_slot_count = 128

max_active_runs_per_dag = 16

load_examples = False

plugins_folder = /root/airflow/plugins

fernet_key = RiTu0XwbUAWsGzRbkgFeZ1aC4oZ4JRRqBLs6LdGFSho=

donot_pickle = False

dagbag_import_timeout = 30

task_runner = BashTaskRunner

default_impersonation =

security =

unit_test_mode = False

task_log_reader = task

enable_xcom_pickling = True

killed_task_cleanup_time = 60

[cli]

api_client = airflow.api.client.local_client

endpoint_url = http://10.253.14.131:61080

[api]

auth_backend = airflow.api.auth.backend.default

[operators]

default_owner = Airflow

default_cpus = 1

default_ram = 512

default_disk = 512

default_gpus = 0

[webserver]

authenticate = True

auth_backend = airflow.contrib.auth.backends.password_auth

base_url = http://10.253.14.131:61080

web_server_host = 0.0.0.0

web_server_port = 8080

web_server_ssl_cert =

web_server_ssl_key =

web_server_worker_timeout = 120

worker_refresh_batch_size = 1

worker_refresh_interval = 30

secret_key = temporary_key

workers = 4

worker_class = sync

access_logfile = -

error_logfile = -

expose_config = True

filter_by_owner = False

owner_mode = user

dag_default_view = tree

dag_orientation = LR

demo_mode = False

log_fetch_timeout_sec = 5

hide_paused_dags_by_default = False

page_size = 100

[email]

email_backend = airflow.utils.email.send_email_smtp

[smtp]

smtp_host = smtp.exmail.qq.com

smtp_ssl = True

smtp_starttls = False

smtp_user = rendz@metrodata.cn

smtp_port = 465

smtp_password = 1q2w3eRDZRDZ

smtp_mail_from = rendz@metrodata.cn

[celery]

celery_app_name = airflow.executors.celery_executor

worker_concurrency = 16

worker_log_server_port = 61793

broker_url = redis://10.253.14.131:61379/1

result_backend = db+postgresql://airflow:airflow@10.253.14.131:5432/airflow

flower_host = 0.0.0.0

flower_port = 64555

default_queue = default

celery_config_options = airflow.config_templates.default_celery.DEFAULT_CELERY_CONFIG

ssl_active = False

[dask]

cluster_address = 127.0.0.1:8786

[scheduler]

job_heartbeat_sec = 5

scheduler_heartbeat_sec = 5

run_duration = -1

min_file_process_interval = 0

dag_dir_list_interval = 300

print_stats_interval = 30

child_process_log_directory = /root/airflow/logs/scheduler

scheduler_zombie_task_threshold = 300

catchup_by_default = True

max_tis_per_query = 0

statsd_on = False

statsd_host = localhost

statsd_port = 8125

statsd_prefix = airflow

max_threads = 2

authenticate = False

[ldap]

uri =

user_filter = objectClass=*

user_name_attr = uid

group_member_attr = memberOf

superuser_filter =

data_profiler_filter =

bind_user = cn=Manager,dc=example,dc=com

bind_password = insecure

basedn = dc=example,dc=com

cacert = /etc/ca/ldap_ca.crt

search_scope = LEVEL

[mesos]

master = localhost:5050

framework_name = Airflow

task_cpu = 1

task_memory = 256

checkpoint = False

authenticate = False

[kerberos]

ccache = /tmp/airflow_krb5_ccache

principal = airflow

reinit_frequency = 3600

kinit_path = kinit

keytab = airflow.keytab

[github_enterprise]

api_rev = v3

[admin]

hide_sensitive_variable_fields = True

(3)在当前要安装的目录 建立相关的目录

mkdir -p ./dags ./logs ./plugins

(4)安装docker-compose

curl -L "https://github.com/docker/compose/releases/download/1.25.0/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose

加上可执行权限:

chmod +x /usr/local/bin/docker-compose

(5)执行一下(在有docker-compose.yml的目录下面)

docker-compose up

(6)进入docker容器中初始化数据库

docker exec -it airflow_webserver_1 bash

docker initdb

(7)建立登录的用户,参考以下脚本:add_user.py

import airflow

from airflow import models, settings

from airflow.contrib.auth.backends.password_auth import PasswordUser

user = PasswordUser(models.User())

user.username = 'xxxxxx'

user.email = 'xxxx'

user.password = 'xxxxxxxx'

session = settings.Session()

session.add(user)

session.commit()

session.close()

exit()

需要先进入容器:docker exec -it airflow_webserver_1 bash

再用容器里面的python执行上述py脚本

(8)互联网访问

若服务器可以直接被互联网访问:

直接访问你的airflow.cfg配置里面的[webserver]下面的baseurl 链接

否则,配置一下nginx转发

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,616评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,020评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,078评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,040评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,154评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,265评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,298评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,072评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,491评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,795评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,970评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,654评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,272评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,985评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,815评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,852评论 2 351

推荐阅读更多精彩内容