信阳网站建设哪家好,网站建设需不需要招标,西安网站模板建站,网站建设管理措施简而言之#xff0c;数据目录就是关于企业数据资产的一个有序清单。它可以使用元数据来帮助企业管理数据#xff0c;帮助数据专业人员收集、组织、访问和充实元数据#xff0c;从而为数据发现和治理提供支持。
01 数据目录的定义和类比 在上文我们简单介绍数据目录的定义数据目录就是关于企业数据资产的一个有序清单。它可以使用元数据来帮助企业管理数据帮助数据专业人员收集、组织、访问和充实元数据从而为数据发现和治理提供支持。
01 数据目录的定义和类比 在上文我们简单介绍数据目录的定义也就是使用元数据来帮助企业管理数据。接下来我们使用图书馆作类比带您详细了解数据目录。 当您前往图书馆查找某一图书时您可以使用图书目录来查找该图书是否存在了解它的版本、位置以及相关描述。您可以使用所有这些信息来决定是否真的需要这本书了解如何找到它。 当今的许多对象存储、数据库和数据仓库就相当于一座座图书馆。 我们再回到图书馆和图书目录。现在我们对图书目录进行扩展涵盖整个国家的所有图书馆。想象一下这样您就可以在一个界面中查找整个国家中储藏了您所需图书的所有图书馆查找关于您所需的每一本图书的所有详细信息。 企业数据目录之于数据正如图书目录之于图书。它可以为您提供一个整体视图提供关于您所有数据的深度可见性而不仅仅是一次只查看某一项数据。 您为什么需要这样一个视图呢 02 数据目录可以解决哪些问题 与过去相比想从如今前所未有的数据海洋中找到正确的数据更加困难。同时关于数据的监管条例和法规例如 GDPR也比过去更多、更严格。在这一背景下除了数据访问之外数据治理也成为了一个严峻的挑战。您不仅要了解当前您所拥有数据的类型、哪些人在移动数据、数据的用途以及如何保护数据还必须避免过多的数据层和封装避免数据因太难使用而毫无用处。遗憾的是很多企业和用户在查找和访问数据上面临着很多问题包括 需耗费大量时间和精力查找和访问数据 数据湖变成了数据沼泽 无通用业务词汇 难以理解“黑暗数据”的结构和类别 难以评估数据来源、质量和可靠性 无法捕获部落知识或丢失的知识 难以重用知识和数据资产 需手动和临时进行数据准备
03 哪些用户应使用数据目录 数据工程师、数据科学家、数据管理员和首席数据官等用户无不受到以上数据管理问题的困扰无不希望能够轻松访问可靠的数据。他们面临的一些常见的挑战包括 数据工程师想知道任意更改将对整个系统产生哪些影响他们可能会问 我们 CRM 应用中的模式变更将产生哪些影响 Peoplesoft 和 HCM 数据结构有何不同 数据科学家希望能够轻松访问数据并进一步了解数据质量他们想了解以下信息 从何处可以找到和查看一些地理位置数据 如何轻松访问数据湖中的数据 数据管理员负责管理数据流程关注概念、利益相关者间协议以及数据生命周期管理。他们希望了解 我们是否真的在改善运营数据质量 我们是否为重要的关键数据元素定义了标准 首席数据官关心哪些人在组织中做了哪些事一般不使用数据目录。但是他们仍然希望了解 哪些人可以访问客户的个人信息 我们是否为所有数据定义了保留策略 有了数据目录这些问题就能迎刃而解。
04 数据目录使用场景 在过去几年中随着需要管理和访问的数据的数量日益增长数据目录这一概念开始流行起来。在这一切的背后是云、大数据分析、人工智能和机器学习正逐渐改变人们查看、管理和使用数据的方式 — 不仅要管理数据还要访问和充分利用数据。 使用数据目录您可以更好地使用数据获得以下优势 节省成本 提高运营效率 增强竞争优势 改善客户体验 减少欺诈降低风险 等等 这些只是数据目录的一部分使用场景。实际上数据目录的使用方式多种多样。从根本上说它的宗旨就是提供更广泛的数据可见性和更深入的数据访问支持。
1.自助分析 许多用户难以找到正确的数据同时除了查找数据外他们还难以判断数据是否有用。例如您可能会发现一个名为 customer_info.csv 的文件而又恰好需要一个关于客户的文件。但这并不意味着它就是您需要的它可能只是 50 个类似文件中的一个。同时该文件可能包含许多字段您可能并不了解所有这些数据元素代表什么。对此您需要通过一种更简单的方法来查看数据的业务上下文例如它是否是来自正确的数据存储的托管资源以及它与其他数据工件之间的关系。 数据发现还包括通过各种方式来理解数据的形态和特征例如简单的值分布和统计信息或者重要且复杂的个人身份信息 (PII) 或个人健康信息 (PHI)。
2.审计、合规和变更管理 随着关于数据的政府监管法规数量不断增长企业经常需要证明数据的来源例如特定数据工件的来源或在实现最终目标之前进行了哪些数据转换在查看表格、报告或文件时数据用户通常也希望理解数据的具体来源以及数据通过各种方式在整个组织中的移动过程。同时对于变更管理来说一项重要任务就是查看数据管道中某部分的变更将如何影响系统的其他部分。这就是为什么客户希望详细了解数据沿袭的原因。
3.使用业务术语表增强数据治理 如今大多数企业都建立了一个所有人都认可的术语表就业务概念达成了一致。通常业务术语表记录在 Excel 工作簿中。其实数据目录比 Excel 工作簿更适合存储和管理这一重要业务信息。 此外数据目录还支持在业务术语之间建立链接从而创建分类可以记录业务术语与实物资产例如表和列之间的关系可以帮助用户理解哪些业务概念与哪些技术工件相关可以帮助用户按业务概念线对数据资产分类随后直接使用业务概念而不是技术名称来进行数据搜索和发现。数据目录让用户可以看到与数据相关的所有内容增强对所查看内容的信任度为数据治理奠定一个绝佳的起点。 05 如何充分利用数据目录中的数据 许多人可能不熟悉元数据我们有必要先介绍一些简单的概念。元数据是什么元数据分为 3 类 技术元数据模式、表、列、文件名、报告名 — 源系统中记录的所有信息 业务元数据通常指用户具备的关于组织资产的业务知识包括业务描述、备注、注释、分类、适用性、评级等等。 操作元数据这一对象的刷新时间它由哪一个 ETL 作业创建表格被访问次数有多少具体有哪些 在过去几年里这些宝贵的元数据的使用方式发生了一次细微的变革。曾经元数据仅用于审计、来历追溯和报告。如今无服务器处理、图形数据库等技术创新尤其是全新、更加便捷的 AI 和机器学习技术正在突破元数据的界限带来新的可能。 在今天元数据可增强数据管理。从自助数据准备到角色和数据内容库访问控制自动化数据打通异常监视和警报自动化资源供应和扩展等等元数据可以全面增强所有这些功能。 数据目录可以使用元数据帮助您实现比数据管理更强大的功能。
06 数据目录应当具备哪些功能 一个优秀的数据目录应当具备以下功能
①数据搜索和发现数据目录应当具备灵活的搜索和过滤选项从而赋能用户快速找到相关数据集以实施数据科学、分析或数据工程按照数据资产的技术层级来浏览元数据。此外如支持用户输入技术信息、自定义标签或业务术语数据目录可以进一步改善搜索功能。
②从各种数据源收集元数据请确保您的数据目录可以从各种互联数据资产中收集技术元数据包括对象存储、自治驾驶数据库、本地部署系统等等。
③元数据管理数据目录应支持主题专家通过企业业务术语表、标签、关联、用户自定义注释、分类、评级等形式来贡献业务知识。
④自动化和数据智能对于大规模数据人工智能和机器学习通常必不可少。因此数据目录应利用 AI 和机器学习技术来处理所收集的元数据让所有可以自动化的手动任务都实现自动化。此外人工智能和机器学习还可以切实增强数据功能例如为数据目录用户以及现代化数据平台上其他服务的用户提供数据建议。
⑤企业级功能您需要利用强大的企业级功能来正确使用您至关重要的数据资产例如身份与访问管理功能以及基于 REST API 的重要功能。同时这还意味着客户和合作伙伴可以贡献元数据例如自定义收集器通过 REST 公开其应用中的数据目录功能。 除此之外您的数据目录还应当成为事实上的系统目录从而为所有持久层例如对象存储、Hadoop、数据库和数据仓库以及跨所有数据存储运行的查询服务提供抽象。 正是因为如此数据目录已不再仅仅是锦上添花而是成为了一项必不可少的工具。