网站建设 苏州,wordpress便宜的付费主题,网上书城网站开发说明书,如何增加网站pr值文章目录一、DataWorks概况1.1 定义1.2 功能1.3 与MaxCompute的关系二、基于DataWorks与MaxCompute构建云数仓一站式大数据开发治理DataWorks学习DataWorks 是什么#xff1f;产品定位产品受众核心能力数据治理的概念、需求层次和目标对于数据治理概念的一些基本理解数据治理的…
文章目录一、DataWorks概况1.1 定义1.2 功能1.3 与MaxCompute的关系二、基于DataWorks与MaxCompute构建云数仓一站式大数据开发治理DataWorks学习DataWorks 是什么产品定位产品受众核心能力数据治理的概念、需求层次和目标对于数据治理概念的一些基本理解数据治理的需求层次数据治理的目标数据治理概要总结一、DataWorks概况
1.1 定义
DataWorks 是基于MaxCompute计算引擎的一站式开发工场帮助企业快速完成数据集成、开发、治理、质量、安全等全套数据研发工作。
1.2 功能
1.数据集成
能够支持多种异构数据源之间数据高速稳定的数据移动及数据同步。
2.可视化数据开发
帮助用户获得更加清晰的开发逻辑SQL智能编辑器能够带来更人性化的开发体验可视化开发界面简单易上手。
3强大调度功能
支持根据时间、依赖关系进行任务触发的机制
支持每日千万级别的任务根据DAG关系准确、准时地运行
支持分钟、小时、天、周和月多种调度周期配置。
4.数据服务
帮助用户实现数据API快速生成和注册服务。
5.可视化运维
提供上下游关系梳理、运行日志、补数据等完善的任务运维。
6.数据资产管理
包括元数据管理、数据血缘、数据资产大图等。
7.数据质量
数据质量探查、监控、校验和评分体系。
8.数据安全
数据权限管理数据的分级达标、脱敏、以及数据的审计。
1.3 与MaxCompute的关系
DataWorks就是基于MaxCompute的PaaS平台可以简单理解为DataWorks是一个web形式的开发管理工具而MaxCompute作为存储计算引擎扮演了IaaS层支撑的角色。我们可以通过DataWorks来用MaxCompute。
MaxCompute 和DataWorks一起向用户提供完善的ETL和数仓管理能力以及SQL、MR、Graph等多种经典的分布式计算模型能够更快速地解决用户海量数据计算问题有效降低企业成本保障数据安全。 Maxcompute中的盘古就相当于Hadoop中的HDFS
Maxcompute中伏羲就相当于Hadoop中的Yarn;
Maxcompute中MaxCompute Engine 就相当于Hadoop中的MapReduce。
二、基于DataWorks与MaxCompute构建云数仓 数据采集DataX、DataHub、RDS
数据存储与计算MaxCompute、DataWorks
数据可视化 QuickBI
一站式大数据开发治理DataWorks学习
大数据开发治理平台 DataWorks产品文档 大数据开发治理平台 DataWorks体验馆 一站式大数据开发治理DataWorks使用宝典 一站式大数据开发治理DataWorks学习路径 实验全链路数据治理 实践基于DataWorks的大数据一站式开发及数据治理 DataWorks 是什么
DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起DataWorks不断沉淀阿里巴巴大数据建设方法论支撑数据中台建设同时与数万名政务、央国企、金融、零售、互联网、能源、制造、工业等行业的客户携手不断提升数据应用效率助力产业数字化升级。 DataWorks 业务构架
产品定位
DataWorks致力于为数据开发者、数据分析师、数据资产管理者打造一个具备开放自主开发与全栈数据研发能力的一站式、标准化、可视化、透明化的智能大数据全生命周期云研发平台。DataWorks赋予用户仅通过单一平台即可实现数据传输、数据计算、数据治理、数据分享的各类复杂组合场景的能力。
同时DataWorks持续打造符合企业级数仓、数据中台构建要求的功能模块为企业业务的数字化转型提供支持。
产品受众
从事数据开发、算法开发等岗位的技术人员 从事销售运营、商业智能分析等岗位的业务人员 从事数据安全与合规工作的管理人员 从事数据应用开发的开发人员 把控公司核心数据资产的管理人员
核心能力
基于DataWorks您可以获得如下能力
数据集成复杂网络环境、丰富数据源之间的数据传输与上云。数据开发在线批处理、流处理和机器学习等多引擎任务开发构建复杂的调度依赖提供开发、生产环境隔离的研发模式。实时分析仅公共云提供基于电子表格的快速、灵活的即时查询。数据服务零代码快速生成Serverless化的API。数据质量通过表级别、字段级别监控规则定义第一时间感知脏数据。智能监控一键实现复杂工作流的全链路监控报警配置。数据地图公共云/数据管理专有云提供强大的数据搜索、数据类目、数据血缘等能力。数据资产管理仅专有云统一管理整个平台的数据表、API等各类数据资产。数据安全数据审计、数据脱敏、权限控制等能力。 应用开发仅公共云基于Web端的组件拖拉拽轻松构建数据应用。工作空间管理公共云/平台管理专有云从系统层面为管理者提供对使用DataWorks的用户成员权限、DataWorks底层计算引擎配置的管理能力。
总之使用DataWorks您不仅可以进行海量数据的离线加工分析还能完成数据的汇聚集成、开发、生产调度与运维、离线与实时分析、数据质量治理与资产管理、安全审计、数据共享与服务、机器学习、应用搭建等覆盖大数据全生命周期的最佳实践。让数据从采集到展现、从分析到驱动应用得以一站式解决真正实现数据业务化、业务数据化。 数据治理的概念、需求层次和目标
对于数据治理概念的一些基本理解
当我们在谈论数据治理时经常会跟数据管理这一概念一起讨论。DataWorks设计数据治理产品功能时参考的主要也是数据管理领域内的三大理论依据第一个是数据管理协会知识体系也就是大家熟知的DAMA、DMBOK2第二个是DCMM数据管理能力成熟度评估第三个是信通院的数据资产管理实践白皮书。 数据治理概念
从左右这两张图对比可以看出DMBOK和DCMM对于数据管理和数据治理的范围和定义是略微有区别的。DMBOK将数据管理划分为十大职能领域数据治理位于最中间的位置用于串联其十大职能领域。而DCMM将数据管理定成八大过程域数据治理是和数据质量、数据安全并列的过程域之一。显然业界不同的组织和群体对于数据管理和数据治理概念的理解会存在一些出入。
数据治理的需求层次
DAMS有这样的一个描述在数据管理过程中要保证一个组织已经将数据转换成有用的信息这项工作所需要的流程和工具就是数据治理的工作。这里强调两个概念第一数据治理是数据管理的一部分第二数据治理的核心是流程和与之配套的工具的保障。DataWorks也是参考了这个定义聚焦于保障与数据资产化配套的数据治理方面的需求来设计产品能力。当然产品能力建设也是一个逐步的过程DataWorks的功能也在持续扩展中。 根据数据治理的需求结合在阿里巴巴内部数据治理的实践过程以及跟外部许多客户和同行的交流我们发现企业的数字化转型阶段不同数据治理方面的核心需求是存在差异的。抽象来看数据治理的需求可以分为五个层次第一层是时效性指的是数据产出的及时性要求 第二层是质量数据的质量管控治理覆盖数据的完备性正确性准确性等 第三层是数据的可用这里主要强调的是数据的共享使用易查找好理解或可复用第四层是数据安全方面的要求比如说数据权限的申请和审批流程的管控敏感数据的识别和保护以及合规性要求第五层是数据的生产、存储和使用的成本优化控制。 五个层次
这五个层次的需求越下面的需求相对来说越基础需要优先满足。但随着企业数字化转型过程的加深上层的需求就会逐步地体现出来。阿里内部也是这样的过程在十多年前最开始的阶段阿里优先关注的是数据任务的运行稳定数据能及时产出数据是正确的、可用的。当这些需求被很好地满足和保障之后现阶段阿里内部数据治理最关注的是金字塔顶端的需求也就是成本的考量。 当然这五个需求层次并不是必须逐层演进的。在一个阶段企业很大可能会同时有不同层次的需求只是相对而言它关注的需求重点会有所不同。 这五个需求层级实际上也就定义出了数据治理的一个核心目标就是企业数字化转型要最大程度地将数据资产化来挖掘出数据的价值。在这个过程中要满足产出的及时性质量可靠数据易找易用数据安全可控以及生产经济这五个方面的要求。
数据治理的目标
在数据治理的实施策略上来说有自下而上和自上而下两种方式。这两种方式相结合的方式在阿里内部实践验证后更行之有效。顶层用来解决全局的数据规划和组织建设以及制度制定这些问题为治理提供上层的赋权而下层聚焦于核心业务流程的梳理、平台工具和运营体系的构建为数据治理落地提供支撑。 数据治理的目标
通过自上而下和自下而上密切的结合随后循环的演进来进行数据治理的推动。而数据治理的需求分层也为数据治理给出了一个启示我们可以整体去规划数据治理的蓝图但是需要分阶段去实施。在特定阶段企业数据治理的诉求重点是有所区别的建议结合企业的实际情况关注重点层次的诉求逐步迭代演进。
数据治理概要总结
一、数据治理是数据管理的一个核心组成部分是数据管理过程中的流程和工具的一个支撑。 二、企业在数字化转型的不同阶段对数据治理的需求层次是有区别的共有五个需求层次。 三、需要一个统一的开发和治理平台来减少重复工作提高扩展性。 四、数据治理治理的对象是数据和产出数据的任务DataWorks的核心理念是基于数据来进行数据治理工作用工具和平台能力服务好使用者来推动数据治理的落地。 五、平台和引擎的技术演进尤其是MaxCompute这个底层引擎技术的演进是数据治理落地的一个催化剂底层引擎的优化工作对于成本优化是有着关键性的影响。 六、DataWorks提供了极好的开放性如果大家有自定义数据治理方面的需求可以通过DataWorks 的开放API、开放数据和开放消息来获取相应的数据进行自定义治理。