网站上写个招贤纳士怎么做,深圳龙华区福城街道,营销师是做什么的,一款游戏的制作过程目录
一、DolphinScheduler调度数仓任务现状分析
2.1 一个任务流构建数仓所有的逻辑节点
2.2 每个逻辑节点构建一个任务流
二、数仓任务管理调度需求分析
三、DolphinScheduler数仓开发任务管理规范
四、结语 前言#xff1a;大数据领域对多种任务都有调度需求#xff…目录
一、DolphinScheduler调度数仓任务现状分析
2.1 一个任务流构建数仓所有的逻辑节点
2.2 每个逻辑节点构建一个任务流
二、数仓任务管理调度需求分析
三、DolphinScheduler数仓开发任务管理规范
四、结语 前言大数据领域对多种任务都有调度需求以离线数仓的任务应用最多许多团队在调研开源产品后选择DolphinScheduler作为调度场景的技术选型。得益于DS优秀的特性在对数仓任务做运维和管理的时候往往比较随意或将所有任务节点写到一个工作流里或将每个逻辑节点单独定义一个工作流 缺少与数仓建模对应的任务管理规范这造成了数据管理困难和异常容错繁琐等痛点本文基于数仓建模标准的方法论构建一套用于DS管理数仓任务的规范避免以上痛点。
一、DolphinScheduler调度数仓任务现状分析 在使用DS做数仓任务管理时数据建模分层落地到调度上缺少规范社区用户用起来比较乱一些常见的场景如下
2.1 一个任务流构建数仓所有的逻辑节点 DolphinScheduler里有任务血缘的概念这个概念和数据血缘有许多类似的地方在构建调度任务的时候用户容易将任务血缘和数据血缘混淆希望在构建数仓生命周期的时候通过任务血缘呈现出数据血缘的关系这导致丢失了数据建模规范的分层管理。
类似例子如下
单个工作流 包含所有计算逻辑 优点这样做的好处是可以在一个工作流里直观的复现数据建模
缺点对于数据管理困难只能人为的观察定位数据情况
任务运行异常后容错困难要排查所有逻辑节点并将计算逻辑回滚这是特别繁琐的过程
2.2 每个逻辑节点构建一个任务流 除了将整个数仓的逻辑包装到一个工作流还有另外一种方式将每个逻辑节点包装成一个工作流这种能很好的将计算逻辑解耦任务运行异常的时候逻辑回归也清晰简单但是依旧没有做到合理的数仓建模分层管理且操作繁琐面对超大量任务时创建工作流将成为一种负担。
类似例子如下 优点优秀的异常容错任务出现异常计算的时候前后任务逻辑就能异常回滚重跑
缺点任务流创建繁琐且没有做好数仓规范的数据分层管理。
二、数仓任务管理调度需求分析 从数仓的视角任务调度核心需求是任务类型、依赖关系、定时调度、任务优先级以及数仓分层管理层级依赖调度系统的视角还有高可用、告警、资源管理、用户安全、易用性、可扩展等能力。 任务类型、依赖关系、定时调度、任务优先级是系统提供的能力数仓分层管理和层级依赖是调度能力之上的任务管理规范。这里参考数据建模规范构建与之对应的任务管理规范。
数据建模架构如下 数据建模分析与数仓维度建模规范-CSDN博客
数据建模到数仓开发过程中需要关注4点
逻辑开发数据需求的实现数据管理各层级数据划分开发依赖数据层级依赖实现异常容错异常任务定位和数据复原重跑。
构建在调度系统之上的数仓任务编排规范需要满足以上要求。
三、DolphinScheduler数仓开发任务管理规范
为了和数据建模规范保持一致我们按照数据建模的分层理论设计调度任务的编排规范。
从顶层设计上将工作流定义为3类
数仓分层工作流ODS、DIM、DW、ADS每层一个工作流 DW层可以根据业务需求细分出三个DWD、DWM、DWS等好实现业务需求的单独任务流管理数仓任务Master管理工作流将数仓分层按照开发依赖串联到一个工作流中统一管理异常容错工作流数仓运行过程中中途出错或者结果异常需要数据环境复原就可以将中间表清理逻辑包装在异常容错工作流做统一数据清理然后再从头跑数仓任务。
数仓开发工作流规范如下 数仓每层工作流只关注每层的逻辑以ODS层为例该层提供多个数据应用方数据支持所以在这个任务工作流里构建这一层的所有逻辑节点 运行任务管理Master工作流节点布局规范如下 异常容错工作流
这一个工作流主要是为了在任务运行异常时删除中间表计算的新增结果
依据数据模型的表设计想将DS的任务血缘当简单数据血缘使用需求的可以在这一个工作流里将节点关联数据清理和任务血缘不冲突还可以顺便检测数据清理情况。
四、结语 除此之外数仓还有一些局部概念需要在任务编排上做规范比如需要将DS项目和数仓映射一个DS项目管理一个数仓需要将数据集市和工作流映射ADS层有多种数据应用场景就拆分成多个工作流等本文的规范是以数仓标准数据模型构建的如果有特殊需求可以在这个任务管理规范基础上做相应调整。 如果这份博客对大家有帮助希望各位给i7杨一个免费的点赞作为鼓励并评论收藏一下⭐谢谢大家 制作不易如果大家有什么疑问或给i7杨的意见欢迎评论区留言。