Airflow简单介绍及测试安装
Airflow 是什么
- Airflow 是 Airbnb 开发的用于工作流管理的开源项目,自带 web UI 和调度。它支持编程方式创建工作流,同时在平台上管理和监控工作流程的状态。
- Airflow 于 2016 年 3 月加入了 Apache Software Foundation 的孵化计划,所以它未来的持续维护性有保障。
- 官方地址:https://github.com/apache/airflow,现有11318个star,732个贡献者,是一个热门的开源项目。
- 先看下这篇介绍 :浅谈调度工具——Airflow
为什么使用 Airflow
- 智能调度
- 图形化展示任务关系
- 程序化流水线定义
- 流水线间数据交互
- 扩展性强
- 分布式,可靠性高
- 执行方式多样化,除了定时执行还可手动触发,api 触发等
Airflow 常用的场景
Airflow 主要用于执行预定的批处理作业。它能够很好地管理不同的批量作业的关系,并给将复杂的关系图形化展示。
- 系统或运用的日常维护任务,批量作业
- CD 部署任务,灰度发布,蓝绿部署等
- 数据分析,数据流管道管理
一句话:任何批量任务或者需要手动去触发执行的任务都可以考虑一下 Airflow
Airflow 安装
airlow 使用 ansible role 方式安装 https://github.com/idealista/airflow-role 0. 安装准备软件 ansible、gcc、python-devel
shell
1 | yum install ansible gcc python-devel -y |
- 创建文件
requirements.yml
plaintext
1 | - src: idealista.airflow-role |
- 下载 airflow role
shell
1 | ansible-galaxy install -p roles -r requirements.yml -f |
- 更改 role 中的 install.yml
将 roles/airflow/tasks/install.yml 中的apt
模块改成package
模块
将 roles/airflow/tasks/install.yml 中的 Copy Daemon scripts 中的 when 条件去掉
shell
1 | cat roles/airflow/tasks/install.yml |
更改 role 下的 config.yml 及 templates/airflow-***.service.j2 文件
将/usr/local/bin/airflow
改为/usr/bin/airflow
shell
1 | cat roles/airflow/tasks/config.yml |
目的该 role 使用 pkg 只能在 Debian 或 Ubuntu 环境下安装,更改后,可以在 centos 环境下安装 4. 更新 ansible 的 hosts 文件
shell
1 | cat /etc/ansible/hosts |
- 创建部署 airflow 的 ansible yaml
shell
1 | cat airflow.yml |
- 安装 airflow
shell
1 | ansible-playbook airflow.yml |
执行完以上操作后本机就安装好了 airflow,同时也配置好了 service 等。 7. 手动初始化 db
shell
1 | HOME=/etc/airflow; airflow initdb |
- 更新配置/etc/airflow/airflow.cfg
shell
1 | cat /etc/airflow/airflow.cfg |
- 启动 airflow-worker
shell
1 | systemctl restart airflow-worker |
安装好后展示
问题记录
- 如果使用 CeleryExecutor,可以安装 Celery 管理器 flower。,默认会安装 tornado 最新版本,需要限定 tornado 版本需限制在 4.2.0。安装完成后运行
AIRFLOW_HOME=/etc/airflow airflow flower
- 使用 Mysql 作为后台数据库时,安装 mysql 扩展请安装 mysql-python。
同时 broker_url 设置为broker_url = mysql://airflow:airflow@localhost:3306/airflow
- 测试 Airflow 中的 DAG 时,需要在界面上将它先把状态改为 On 后,再点击运行。
相关文章
Airflow 中文文档
任务调度神器 airflow 之初体验
airflow 安装,部署,填坑
airflow 配置 CeleryExecutor
浅谈调度工具——Airflow
如何部署一个健壮的 apache-airflow 调度系统
Airflow 工作模式及适用场景
浅谈调度工具——Airflow
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Michael Blog!
评论
来做第一个留言的人吧!