销售网站建设工资多少,哪个网站可以做链接,wordpress用手机写博客,wordpress文章代码#x1f3e1; 个人主页#xff1a;IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客 #x1f6a9; 私聊博主#xff1a;加入大数据技术讨论群聊#xff0c;获取更多大数据资料。 #x1f514; 博主个人B栈地址#xff1a;豹哥教你大数据的个人空间-豹… 个人主页IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客 私聊博主加入大数据技术讨论群聊获取更多大数据资料。 博主个人B栈地址豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频 目录
1. Airflow分布式集群搭建原因
2. Airflow分布式集群其他扩展
2.1 扩展Worker节点
2.2 扩展Master节点
2.3 Scheduler HA 1. Airflow分布式集群搭建原因
在稳定性要求较高的场景中例如金融交易系统airflow一般采用集群、高可用方式搭建部署airflow对应的进程分布在多个节点上运行形成Airflow集群、高可用部署架构图如下
以上集群、高可用方式搭建Airflow好处如下
如果一个worker节点崩溃挂掉集群仍然可以正常利用其他worker节点来调度执行任务。当工作流中有内存密集型任务任务最好分布在多态机器上执行以得到更好效果airflow分布式集群满足这点。 2. Airflow分布式集群其他扩展
2.1 扩展Worker节点
我们可以通过向集群中添加更多的worker节点来水平扩展集群并使这些新节点使用同一个元数据库从而分布式处理任务。由于Worker不需要再任何进程注册即可执行任务因此worker节点可以在不停机不重启服务下的情况进行扩展。
我们也可以通过增加单个worker节点的进程数来垂直扩展集群可以通过修改airflow配置文件AIRFLOW_HOME/airflow.cfg中celeryd_concurrency的值来实现例如celeryd_concurrency30,我们可以根据集群上运行任务性质、CPU的内核数量等增加Worker单节点并发数量来满足实际需求。
扩展worker节点后的架构如下 2.2 扩展Master节点
我们还可以向集群中添加更多的主节点以扩展主节点上运行的服务。我们可以扩展webserver防止太多的HTTP请求出现在一台机器上防止webserver挂掉需要注意Master节点包含Scheduler与webServer在一个Airflow集群中我们只能一次运行一个Scheduler进程如果有多个Scheduler运行那么可能出现同一个任务被执行多次导致任务流重复执行。
Master扩展参照后续Airflow分布式集群搭建扩展Master后的架构如下 2.3 Scheduler HA
扩展Master后的Airflow集群中只能运行一个Scheduler那么运行的Scheudler进程挂掉任务同样不能正常调度运行这种情况我们可以在两台机器上部署scheduler只运行一台机器上的Scheduler进程一旦运行Schduler进程的机器出现故障立刻启动另一台机器上的Scheduler即可这种就是Schduler HA我们可以借助第三方组件airflow-scheduler-failover-controller实现Scheduler的高可用。
详细操作参照后续Airflow分布式集群搭建加入Scheduler HA的架构如下