南京制作网站服务商,衡水哪儿做wap网站,做seo网站图片怎么优化,西安网站排名公司数据入湖遵循华为信息架构#xff0c;以逻辑数据实体为粒度入湖#xff0c;逻辑数据实体在首次入湖时应该考虑信息的完整性。原则上#xff0c;一个逻辑数据实体的所有属性应该一次性进湖#xff0c;避免一个逻辑实体多次入湖#xff0c;增加入湖工作量。
数据入湖的方式… 数据入湖遵循华为信息架构以逻辑数据实体为粒度入湖逻辑数据实体在首次入湖时应该考虑信息的完整性。原则上一个逻辑数据实体的所有属性应该一次性进湖避免一个逻辑实体多次入湖增加入湖工作量。
数据入湖的方式主要有物理入湖和虚拟入湖两种根据数据消费的场景和需求一个逻辑实体可以有不同的入湖方式。两种入湖方式相互协同共同满足数据联接和用户数据消费的需求数据管家有责任根据消费场景的不同提供相应方式的入湖数据。 物理入湖是指将原始数据复制到数据湖中包括批量处理、数据复制同步、消息和流集成等方式。虚拟入湖是指原始数据不在数据湖中进行物理存储而是通过建立对应虚拟表的集成方式实现入湖实时性强一般面向小数据量应用大批量的数据操作可能会影响源系统。 数据入湖有以下5种主要技术手段。 批量集成Bulk/Batch Data Movement 对于需要进行复杂数据清理和转换且数据量较大的场景批量集成是首选。通常调度作业每小时或每天执行主要包含ETL、ELT和FTP等工具。批量集成不适合低数据延迟和高灵活性的场景。 数据复制同步Data Replication/Data Synchronization 适用于需要高可用性和对数据源影响小的场景。使用基于日志的CDC捕获数据变更实时获取数据。数据复制同步不适合处理各种数据结构以及需要清理和转换复杂数据的场景。 消息集成Message-Oriented Movement of Data 通常通过API捕获或提取数据适用于处理不同数据结构以及需要高可靠性和复杂转换的场景。尤其对于许多遗留系统、ERP和SaaS来说消息集成是唯一的选择。消息集成不适合处理大量数据的场景。 流集成Stream Data Integration 主要关注流数据的采集和处理满足数据实时集成需求处理每秒数万甚至数十万个事件流有时甚至数以百万计的事件流。流集成不适合需要复杂数据清理和转换的场景。 数据虚拟化Data Virtualization 对于需要低数据延迟、高灵活性和临时模式不断变化下的模式的消费场景数据虚拟化是一个很好的选择。在数据虚拟化的基础上通过共享数据访问层分离数据源和数据湖减少数据源变更带来的影响同时支持数据实时消费。数据虚拟化不适合需要处理大量数据的场景。 5种数据入湖方式的对比可以参考表。 可以通过数据湖主动从数据源PULL拉的方式入湖也可以通过数据源主动向数据湖PUSH推的方式入湖。数据复制同步、数据虚拟化以及传统ETL批量集成都属于数据湖主动拉的方式流集成、消息集成属于数据源主动推送的方式。在特定的批量集成场景下数据会以CSV、XML等格式通过FTP推送给数据湖。