当前位置: 首页 > news >正文

杭州做网站小芒好123设为主页

杭州做网站小芒,好123设为主页,个人房产备案查询网上查询,室内设计自学网站如果没有最佳实践#xff0c;存储可能会变得无法维护。自动化数据质量、生命周期和隐私功能可持续清理/移动数据湖中的数据。数据湖正成为企业从大数据中提取价值的一种日益可行的解决方案#xff0c;对于早期采用者和新用户来说都是合理的下一步。在独立的逻辑区域中随时可用…如果没有最佳实践存储可能会变得无法维护。自动化数据质量、生命周期和隐私功能可持续清理/移动数据湖中的数据。数据湖正成为企业从大数据中提取价值的一种日益可行的解决方案对于早期采用者和新用户来说都是合理的下一步。在独立的逻辑区域中随时可用的结构化、非结构化和历史数据所具备的灵活性、敏捷性和安全性为企业带来了大量变革性能力。然而许多潜在用户未能理解的是可用的数据湖是如何定义的。通常大数据新手甚至经验丰富的 Hadoop 老手都会尝试搭建一些集群并使用不同的脚本、工具和第三方供应商将它们拼凑在一起这既不经济高效也不可持续。在本文中我们将阐述数据湖远不止是几台服务器的简单拼凑构建一个有效的数据湖需要规划、规范和治理。 区域 在数据湖中区域允许对数据进行逻辑和 / 或物理分离从而使环境安全、有序且敏捷。通常鼓励使用 3 到 4 个区域但也可以采用更少或更多的区域。一个通用的 4 区域系统可能包括以下内容 临时区域 —— 用于存放临时数据如临时副本、流式暂存数据或其他在被摄取之前的短期数据。原始区域 —— 原始数据将在此区域中保存。这也是敏感数据必须进行加密、标记化或其他安全处理的区域。可信区域 —— 在对原始区域中的数据进行数据质量检查、验证或其他处理后该区域的数据就成为下游系统的 “事实来源”。精炼区域 —— 经过处理和丰富的数据保存在此区域。这用于存储 Hive 等工具或写入数据湖的外部工具的输出结果。 这种安排可根据企业的规模、成熟度和独特用例进行调整但会通过专用服务器 / 集群实现物理分离通过精心构建目录和访问权限实现逻辑分离或者两者结合使用。从视觉上看这种架构类似于如下所示。 建立和维护定义明确的区域是创建健康数据湖的最重要活动并有助于本文中其他概念的定义。同时重要的是要明白区域不能提供什么 —— 即区域并非灾难恢复或数据冗余策略。尽管在灾难恢复中可能会考虑分区域但建设可靠的基础架构以确保冗余和弹性仍然很重要。 血缘关系 随着新数据源的添加以及现有数据源的更新或修改维护数据集内部和之间关系的记录变得愈发重要。这些关系可能像列的重命名一样简单也可能像连接来自不同来源的多个表一样复杂而每个表本身可能又有多个上游转换。在这种情况下血缘关系有助于提供可追溯性以了解字段或数据集的来源并提供审计跟踪以了解更改发生的位置、时间和原因。这听起来可能很简单但即使使用当今部署的一些专用软件在数据流经数据湖时捕获其详细信息也极其困难。跟踪血缘关系的整个过程涉及在事务级别谁访问了数据以及他们做了什么和结构或文件系统级别数据集和字段之间的关系是什么汇总日志。在数据湖的背景下这将包括任何接触数据的批处理和流式工具如 MapReduce 和 Spark以及任何可能操作数据的外部系统如关系数据库管理系统。这是一项艰巨的任务但即使是部分血缘关系图也能填补传统系统的空白尤其是随着《通用数据保护条例》GDPR等新法规的出现灵活性和可扩展性是应对未来变化的关键。 数据质量 在数据湖中所有数据都可被接纳但并非所有数据都同等重要。因此定义数据的来源以及如何管理和使用数据至关重要。对于需要合规性、大量终端用户使用或可审计性的数据可能需要应用严格的清洗和数据质量规则。另一方面清洗社交媒体数据或来自各种物联网设备的数据可能收效甚微。也可以考虑在使用端而非获取端应用数据质量检查。因此单一的数据质量架构可能并不适用于所有类型的数据。必须注意如果对数据进行 “清洗”用于分析的结果可能会受到影响。修复数据集中值的字段级数据质量规则可能会影响预测模型的结果因为这些修复可能会影响异常值。在这种情况下通过比较 “数据集的预期与实际大小” 或 “空值阈值” 来衡量数据集可用性的数据质量规则可能更合适。通常所需验证的级别受现有遗留限制或内部流程的影响因此在制定新规则之前评估公司的现有流程是个好办法。 隐私 / 安全 健康数据湖的一个关键组成部分是隐私和安全包括基于角色的访问控制、身份验证、授权以及静态和动态数据加密等主题。从纯粹的数据湖和数据管理角度来看主要主题往往是数据混淆包括数据标记化和屏蔽。这两个概念应用于帮助数据本身遵循最小权限的安全概念。限制数据访问对许多寻求遵守其行业的国家和国际法规的企业也有法律影响。限制访问有多种形式最明显的是在存储层大量使用区域。简而言之可以配置存储层的权限使得对最原始格式数据的访问极为有限。随着数据随后通过标记化和屏蔽即隐藏个人可识别信息数据进行转换对后续区域数据的访问可以扩展到更大的用户群体。 数据生命周期管理DLM 企业必须努力将数据管理策略的重点放在更有效地保护、保存和服务其数字资产上。这涉及投入时间和资源来全面制定生命周期管理策略并确定是使用扁平结构还是利用分层保护。传统的数据生命周期管理前提是基于数据被创建、使用然后归档的事实。如今对于某些事务性数据这一前提可能仍然适用但现在许多数据源从读取角度来看仍然处于活动状态无论是持续的还是在可半预测的时间间隔内。了解并理解其信息、数据和存储介质之间的异同并能够利用这种理解来最大限度地利用不同存储层级的企业可以在降低复杂性和成本的同时释放价值。 总结 就像关系数据库在其发展初期一样近年来 Hadoop 的一些应用也因缺乏最佳实践而受到困扰。在考虑将 Hadoop 用作数据湖时有许多最佳实践需要考虑。将区域和适当的授权作为数据工作流框架的一部分可为数据转换提供高度可扩展且并行的系统。 个人拙见欢迎留下评论一起讨论
http://www.zqtcl.cn/news/402241/

相关文章:

  • 做网站需要代码吗秦皇岛在哪里
  • 番禺网站设计公司万网查询全部域名
  • 电子商务网站建设与运营的试题集团高端网站
  • 天津网站建设电话网页制作与设计调试分析
  • 深圳中建南方建设集团网站自己的网站建设
  • 有些网站怎么经常换域名北京宣传片制作公司
  • 网站改版降权多久恢复经典网站
  • 南昌建网站的公司中国专业做鞋子的网站
  • 做100个垂直网站网站建设外包
  • 网站开发图片素材营销软文的范文
  • 手机网站免费建设排行湖南公司响应式网站建设价位
  • 专业网站设计制作价格wordpress 动画特效
  • 如何找企业联系做网站网站内容建设的核心和根本是
  • 网站制作找如何判断一个网站是恶意网站
  • dedecms 网站导航建设自己网站的流程图
  • 临海城市建设网站石家庄做网站的公司有哪些
  • 东光网站建设淘宝店铺装修开个送快餐网站怎么做
  • 建设网站有哪些怎么自学室内设计与装修
  • 苏州建设工程协会网站汶上网站建设哪家便宜
  • 湖南手机版建站系统信息做360网站优化
  • 为什么学网站开发中国猎头公司排行榜
  • 怎么给网站做api做设计找参考的设计网站有那些
  • vultr服务器做网站广州做seo整站优化公司
  • 怎么做一个门户网站婚介网站怎么做
  • 惠州做网站电话柳市哪里有做网站推广
  • 成都公司的网站制作网站建设网店名字
  • 网站备案医疗保健审批号是什么基于asp.net网站开发
  • 生活做爰网站如何用织梦做网站
  • 网站拒绝被百度收录c#+开发网站开发
  • 营销网站竞品分析报告东莞网页制作网站