免费微网站平台那个好,北京景观设计公司10强,家在深圳论坛,上海市干部公示1.什么是ETL#xff1f; ETL#xff0c;Extraction-Transformation-Loading的缩写#xff0c;中文名为数据抽取、转换和加载。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成#xff0c;最后加载到数据仓库或数据集…1.什么是ETL ETLExtraction-Transformation-Loading的缩写中文名为数据抽取、转换和加载。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成最后加载到数据仓库或数据集市中成为联机分析处理、数据挖掘的基础。ETL是BI项目最重要的一个环节通常情况下ETL会花掉整个项目的1/3的时间ETL设计的好坏直接关接到BI项目的成败。ETL也是一个长期的过程只有不断的发现问题并解决问题才能使ETL运行效率更高为项目后期开发提供准确的数据。 ETL作为BI/DWBusiness Intelligence的核心和灵魂能够按照统一的规则集成并提高数据的价值是负责完成数据从数据源向目标数据仓库转化的过程是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图数据是砖瓦的话那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计而ETL规则设计和实施则是工作量最大的约占整个项目的60%80%这是国内外从众多实践中得到的普遍共识。 ETL是数据抽取Extract、清洗Cleaning、转换Transform、装载Load的过程。是构建数据仓库的重要一环用户从数据源抽取出所需的数据经过数据清洗最终按照预先定义好的数据仓库模型将数据加载到数据仓库中去。 在技术上ETL主要涉及到关联、转换、增量、调度和监控等几个方面数据仓库系统中数据不要求与联机事务处理系统中数据实时同步所以ETL可以定时进行。但多个ETL的操作时间、顺序和成败对数据仓库中信息的有效性至关重要。 ETL工具有OWBOracle Warehouse Builder、ODIOracle Data Integrator、Informatic PowerCenter、Trinity、AICloudETL、DataStage、Repository Explorer、Beeload、Kettle、DataSpider。 ETL工具的典型代表有nformatica、Datastage、OWB、微软DTS、Beeload、Kettle…… 2.什么是数据仓库 1定义 数据仓库是决策支持系统dss和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。 数据仓库 由数据仓库之父比尔·恩门Bill Inmon于1990年提出主要功能仍是将组织透过资讯系统之联机事务处理OLTP经年累月所累积的大量资料透过数据仓库理论所特有的资料储存架构作一有系统的分析整理以利各种分析方法如联机分析处理OLAP、数据挖掘Data Mining之进行并进而支持如决策支持系统DSS、主管资讯系统EIS之创建帮助决策者能快速有效的自大量资料中分析出有价值的资讯以利决策拟定及快速回应外在环境变动帮助建构商业智能BI。 数据仓库之父比尔·恩门Bill Inmon在1991年出版的“Building the Data Warehouse”《建立数据仓库》一书中所提出的定义被广泛接受——数据仓库Data Warehouse是一个面向主题的Subject Oriented、集成的Integrated、相对稳定的Non-Volatile、反映历史变化Time Variant的数据集合用于支持管理决策Decision Making Support。 2.数据仓库的特点 1、数据仓库是面向主题的操作型数据库的数据组织面向事务处理任务而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面一个主题通常与多个操作型信息系统相关。 2、数据仓库是集成的数据仓库的数据有来自于分散的操作型数据将所需数据从原来的数据中抽取出来进行加工与集成统一与综合之后才能进入数据仓库 数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的必须消除源数据中的不一致性以保证数据仓库内的信息是关于整个企业的一致的全局信息。 数据仓库的数据主要供企业决策分析之用所涉及的数据操作主要是数据查询一旦某个数据进入数据仓库以后一般情况下被长期保留也就是数据仓库中一般有大量的查询操作但修改和删除操作很少通常只需要定期的加载、刷新。 数据仓库中的数据通常包含历史信息系统记录了企业从过去某一时点如开始应用数据仓库的时点到各个阶段的信息通过这些信息可以对企业的发展历程和未来趋势做出定量分析和预测。 3、数据仓库是不可更新的数据仓库主要是为决策分析提供数据所涉及的操作主要是数据的查询 4、数据仓库是随时间而变化的传统的关系数据库系统比较适合处理格式化的数据能够较好的满足商业商务处理的需求。稳定的数据以只读格式保存且不随时间改变。 5、汇总的。操作性数据映射成决策可用的格式。 6、大容量。时间序列数据集合通常都非常大。 7、非规范化的。Dw数据可以是而且经常是冗余的。 8、元数据。将描述数据的数据保存起来。 9、数据源。数据来自内部的和外部的非集成操作系统。 数据仓库是在数据库已经大量存在的情况下为了进一步挖掘数据资源、为了决策需要而产生的它并不是所谓的“大型数据库”。数据仓库的方案建设的目的是为前端查询和分析作为基础由于有较大的冗余所以需要的存储也较大。为了更好地为前端应用服务数据仓库往往有如下几点特点 1.效率足够高。数据仓库的分析数据一般分为日、周、月、季、年等可以看出日为周期的数据要求的效率最高要求24小时甚至12小时内客户能看到前一天的数据分析。由于有的企业每日的数据量很大设计不好的数据仓库经常会出问题延迟1-3日才能给出数据显然不行的。 2.数据质量。数据仓库所提供的各种信息肯定要准确的数据但由于数据仓库流程通常分为多个步骤包括数据清洗装载查询展现等等复杂的架构会更多层次那么由于数据源有脏数据或者代码不严谨都可以导致数据失真客户看到错误的信息就可能导致分析出错误的决策造成损失而不是效益。 3.扩展性。之所以有的大型数据仓库系统架构设计复杂是因为考虑到了未来3-5年的扩展性这样的话未来不用太快花钱去重建数据仓库系统就能很稳定运行。主要体现在数据建模的合理性数据仓库方案中多出一些中间层使海量数据流有足够的缓冲不至于数据量大很多就运行不起来了。 从上面的介绍中可以看出数据仓库技术可以将企业多年积累的数据唤醒不仅为企业管理好这些海量数据而且挖掘数据潜在的价值从而成为通信企业运营维护系统的亮点之一。正因为如此 广义的说基于数据仓库的决策支持系统由三个部件组成数据仓库技术联机分析处理技术和数据挖掘技术其中数据仓库技术是系统的核心在这个系列后面的文章里围绕数据仓库技术介绍现代数据仓库的主要技术和数据处理的主要步骤讨论在通信运营维护系统中如何使用这些技术为运营维护带来帮助。 4.面向主题 操作型数据库的数据组织面向事务处理任务各个业务系统之间各自分离而数据仓库中的数据是按照一定的主题域进行组织的。主题是与传统数据库的面向应用相对应的是一个抽象概念是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。每一个主题对应一个宏观的分析领域。数据仓库排除对于决策无用的数据提供特定主题的简明视图。 3数据仓库的用途 信息技术与数据智能大环境下数据仓库在软硬件领域、Internet 和企业内部网解决方案以及数据库方面提供了许多经济高效的计算资源可以保存极大量的数据供分析使用且允许使用多种数据访问技术。 开放系统技术使得分析大量数据的成本趋于合理并且硬件解决方案也更为成熟。在数据仓库应用中主要使用的技术如下 并行 计算的硬件环境、操作系统环境、 数据库管理系统和所有相关的数据库操作、查询工具和技术、应用程序等各个领域都可以从并行的最新成就中获益。 分区 分区功能使得支持大型表和索引更容易同时也提高了数据管理和查询性能。 数据压缩 数据压缩功能降低了数据仓库环境中通常需要的用于存储大量数据的磁盘系统的成本新的数据压缩技术也已经消除了压缩数据对查询性能造成的负面影响。[1] 3.什么是数据集市 数据集市 为了特定的应用目的或应用范围而从数据仓库中独立出来的一部分数据也可称为部门数据或主题数据subjectarea。在数据仓库的实施过程中往往可以从一个部门的数据集市着手以后再用几个数据集市组成一个完整的数据仓库。需要注意的就是在实施不同的数据集市时同一含义的字段定义一定要相容这样在以后实施数据仓库时才不会造成大麻烦。 国外知名的Garnter关于数据集市产品报告中位于第一象限的敏捷商业智能产品有QlikView Tableau和SpotView都是全内存计算的数据集市产品在大数据方面对传统商业智能产品巨头形成了挑战。国内BI产品起步较晚知名的敏捷型商业智能产品有PowerBI 永洪科技的Z-SuiteSmartBI等其中永洪科技的Z-Data Mart是一款热内存计算的数据集市产品。国内的德昂信息也是一家数据集市产品的系统集成商。 4.什么是数据挖掘DM--Data Mining 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中提取隐含在 其中的、人们所不知道的、但又是潜在有用信息和知识的过程。 数据挖掘可以用来做什么 数据挖掘能做以下七种不同事情分析方法: · 分类 Classification · 估值Estimation · 预言Prediction · 相关性分组或关联规则Affinity grouping or association rules · 聚集Clustering · 描述和可视化Description and Visualization · 复杂数据类型挖掘(Text, Web ,图形图像视频音频等) 转载于:https://www.cnblogs.com/duanwxue1128/p/5860809.html