免费查找资料的网站,wordpress中文4.8,健身网站开发过程中遇到的麻烦,专属头像制作免费ETL就是Extract、Transfrom、Load即抽取、转换、加载三个英文单词首字母的集合。抽取#xff1a;就是从源系统抽取需要的数据#xff0c;这些源系统可以是同构也可以是异构的#xff1a;比如源系统可能是Excel电子表格、XML文件、关系型数据库#xff0c;而目标系统通常都是… ETL就是Extract、Transfrom、Load即抽取、转换、加载三个英文单词首字母的集合。抽取就是从源系统抽取需要的数据这些源系统可以是同构也可以是异构的比如源系统可能是Excel电子表格、XML文件、关系型数据库而目标系统通常都是关系型的数据仓库。 转换源系统的数据按照分析目的转换成目标系统要求的格式。其实这个名词并没有完全表达出这个步骤的目的更准确的说法应该是数据清洗和数据加工。 加载把转换后的数据装载到目标数据库。作为联机分析、数据挖掘的基础。 整个ETL过程就像是在源系统和目标系统之间构建一个管道数据在这个管道里源源不断的流动。而设计一个ETL架构就是要建起起这个管道。这个管道的部署构建就涉及到三个环节或者说三个位置。分别是Source、Stagearea、Target。对应关系如下 E—————— T —————— L Source———— Stagearea—— Target E抽取这个活动毫无疑问发生在数据源上这个节点也就叫做Souce。 T转换转换活动通常是ETL中最具伸缩性的环节换句话说这个环节的活动可繁可简。最简单的情形下源系统的数据不需要任何转换就直接进入目标这时这个T实际就是没有的。而复杂的情形就多了比如数据格式转化、数据精度转换、数据清洗、缺失数据补齐、异常数据排除等等。在这种情形下通常会专门准备一个临时系统提供足够的软硬件资源来支持这种转换。这个临时系统就叫做Stagearea也叫做数据登台区即数据到达终点之前的区域。 L加载这个活动毫无悬念的发生在目标数据库中这个目标数据库叫做Target。 我们明白了什么是ETL那么ELT就好理解了。ELT也是同样三个单词的首字母组合只不过是把T、L颠倒了下顺序而已。可就是这个顺序的颠倒差异就出来了。ETL强调的是先进性数据转换然后再加载到目标。这个转换过程可能发生在任何地方可以在原系统进行也可以在Stagearea进行也可以在目标系统进行。而ELT是把数据加载到数据仓库后再进行转化发生的地点只能是目标系统。 这两种方式各有优缺点如果源系统有多个比如一个国际型公司起源数据可能来自世界各地这时就可以通过部署多个中间节点从而分散数据转换的压力有点类似分布式计算的味道可以提高数据加载效率。因此ETL非常适用于多个数据源对一个目标的拓扑结构。 而ELT把数据加载到数据仓库在进行转换通常数据仓库都会部署在高性能主机上显而易见这种设计是要充分的利用目标系统的处理能力大树底下好乘凉吗。ELT的另一个优点是可以充分利用产品的内置能力如果ETL的源、目标都是相同的产品比如都是Oracle数据库现在RDBMS内置的数据处理引擎越来越强大ELT能够充分利用这些内置引擎。 所以ETL还是ELT其实并没有绝对的差异也没有孰优孰劣最终还是要根据现实环境选择最适合的。 ETL工具的选择 在数据仓库项目中该如何选择ETL工具呢一般来说需要考虑以下几个方面 (1)对平台的支持程度。 (2)对数据源的支持程度。 (3)抽取和装载的性能是不是较高且对业务系统的性能影响大不大侵入性高不高。 (4)数据转换和加工的功能强不强。 (5)是否具有管理和调度功能。 (6)是否具有良好的集成性和开放性。 转载于:https://www.cnblogs.com/sthinker/p/5941462.html