哪里有做配音的兼职网站,网站引导页利弊,查网站 备案信息,网站网店建设目录 四、数据仓库的概念模型#xff08;一#xff09;多维数据模型#xff08;二#xff09;维度与粒度 五、数据仓库的逻辑模型#xff08;一#xff09;多维模型#xff08;二#xff09;星形模型#xff08;三#xff09;雪花模型 六、数据仓库的物理模型#x… 目录 四、数据仓库的概念模型一多维数据模型二维度与粒度 五、数据仓库的逻辑模型一多维模型二星形模型三雪花模型 六、数据仓库的物理模型一位图索引模型二广义索引模型三连接索引模型四RAID存储结构 四、数据仓库的概念模型 概念数据模型Conceptual Data Model简称概念模型对现实管理决策中各个主题及其特征的数据抽象表示。
概念模型应具有特点 1能够比较真实地模拟或抽象表示用户的决策主题 2表示方法简单直观且易于用户理解 3与计算机系统支持的具体数据模型无关 4易于向数据仓库的逻辑数据模型转换 学术研究的概念模型 ①数据锥体Data Cube模型②维事实模型DFMDimensional Fact Model③ StarER模型④多维模式CMSConceptual Multidimensional Schema⑤扩展ER模型⑥ DWER模型等。
一多维数据模型 定义2-1 称A维度1维度2…维度n变量1…变量k是一个名称为A的n维数组也称A为n维超立方体Hypercube或多维数据模型多维模型。 多维数据模型通常用于描述决策分析的一个主题框架。
1、变量 决策分析的度量指标一个描述数据实际意义的名称。它描述数据 “是什么”即已经发生过的事实Fact。 变量的取值为连续型实数如企业 “销售收入”“管理成本”旅客入住宾馆的 “入住人次”“人均天数” 等。
2、维度 决策分析人员观察数据(度量指标、事实)的一个特定角度称为维度也简称维。例如时间、地理就是两个不同的维度。
3、维的层次 决策分析人员在某个维度上观察数据度量指标时需要的细节程度称为维的层次也称作维的级别。
1时间维的层次可以有日、周、旬、月、季、年等不同的维层次即决策分析人员可以观察每日入住人次也可以观察每周、每月或每年的入住人次。 2辖区维的层次可以公安部某省公安厅、某市公安局、某县公安分局、某乡派出所等。 3地理维的层次可有全国省份地市区县乡镇等层次。 4、维成员 维成员就是一个维度在某个维层次上的一个具体取值。2014年1月和2014年2月就是在时间维的 “月” 层次上的两个维成员2014年3月1日2014年3月2日等都是时间维度上 “日” 层次上的两个维成员。
5、多维数据集 多维数组的每个维度都指定了确定的维成员、且每个变量对应于每个维成员都赋予了具体的数值就称一个多维数据集。
6、数据单元单元格 多维数据集指定维成员后对应变量值的一个存储空间。因此每个单元格描述了一个确定的事实。 关于Hotel多维模型的一个多维数据集。它一共有48个单元格其中2014年1月福建龙湾143对应的数据单元格描述了这样一个事实在2014年1月份福建省有143人次入住龙湾公安分局辖区的宾馆。
7、多维数据集的两种结构
1超立方体结构Hypercube描述一个决策主题的三维或更多维数组且每个维彼此垂直数据空间的各个单元格都取定了相同层次的维成员。
2多立方体Multicube结构用若干个较小的超立方体结构表示一个大的超立方体结构。 二维度与粒度 数据的粒度是指数据仓库的数据单元中所保存数据的综合程度。数据的综合程度越高其粒度就越粗。反之数据的综合程度越低其粒度也就越细。 多维数据集数据的粒度与维的层次是两个联系密切而且内涵一致的概念即维的层次刻画了数据的粒度维的层次越低数据的粒度就越小反之维的层次越高数据的粒度就越大。 数据粒度设计深刻地影响存放在数据仓库中数据占用存储空间的大小和所能回答的查询类型。数据粒度小即维的层次低可以回答许多细节的查询需求但占用过多的存储空间。
五、数据仓库的逻辑模型 逻辑数据模型Logical Data Model是用户从数据仓库管理系统中所看到的、具体的 DWMS 所支持的数据模型。 商品化的数据仓库管理系统DWMS产品中主要有两大类可供用户选择。
1基于关系模型的数据仓库管理系统Relational DWMSRDWMS如 SQL Server、Oracle、DB2 等。前实际应用最多的一类它们都是在以前的 RDBMS 产品中增加多维数据存储管理和控制相关的功能形成的。
2基于多维模型的数据仓库管理系统称为多维数据库管理系统Multi-Dimensional DataBase Management SystemNMDDBMS也称纯多维数据库管理系统。直接支持多维数据模型即多维数据模型无需特殊转换即可交由 NMDDBMS 进行集中存储和管理控制。
一多维模型 若用纯多维数据库管理系统作为 DW 的管理平台则多维数据模型既是数据仓库的概念模型又是数据仓库的逻辑模型而多维数据集都存储在多维数据库中。
1、多维数据库 多维数据库Multi-Dimesional DataBase简称是长期存储在计算机内的、可共享的多维数据集合。MDDB 将所有数据都以 n 维数组的形式存储。
2、多维数据库管理系 多维数据库管理系统是位于用户与操作系统之间的一层数据管理软件负责对多维数据库进行统一管理和控制并为用户和应用程序提供访问多维数据库的方法等。
3、纯多维数据库管理系统Caché Caché 是美国 Intersystems 公司推出的一款纯多维数据库管理系统是一种面向对象的多维数据库管理系统并支持 SQL 的访问方式。该系统具有以下特点。 1速度快 2使用简单 3 接口容易 4对象型编辑 5真正C/S的3层结构 6灵活性可不经修改便能在多种操作系统平台上如Windows98/NT、各种UNIX和Linux运行。 7支持WEB开发 8价格便宜 在美国和欧洲的HIS系统Hospital Information System中使用 Caché 多维数据库管理系统所占的比例是最大的被医疗界公认为首选数据库。哈尔滨医科大学第一临床医学院2007年实施了基于 Caché 的 HIS 系统。
4、多维数据库存储 多维数据集用超立方体结构Hypercube或多立方体结构Multicube表示因此采用纯多维数据库管理系统MDDBMS来存储和管理多维数据集是一种理想的方法。
1多维数据库存储的优点 多维数据库存储多维数据集其数据显示直观、计算处理效率高特别便于汇总。
2多维数据库存储的缺点
① 增加维度操作麻烦超立方体3维建立前必须确定各个维度及其层次关系。但建立后若要增加一个新的维度就要重建立新的超立方体4维。 ② 维度增多引起灾难超立方体随着维度的增多其数据量呈指数增长有可能导致数据文件超过操作系统文件空间上限。 ③ 实时细节数据缺乏超立方体存储的都是前期抽取的汇总级别数据缺乏事实细节数据。
二星形模型 若用户选择 RDWMS 产品多维数据集就必须按照关系模式组织数据存放在基本表中。 星形模型由一个事实表和多个维度表的连接表示多维数据模型其中矩形表示事实表凹圆角矩形表示维度表并用直线表示其间的主键-外键联系。星形模型是多维数据模型在关系数据库中的组织和存储结构描述即它是多维数据模型的关系模型表示方法。因此星形模型是多维数据模型的一种逻辑模型。 1、事实表 事实表是星型模型结构的核心它至少应包含两个部分一是多维数据模型的事实变量也就是度量指标值另一个是由主键和若干外键。 事实表可以通过外键与维度表的主键连接帮助用户理解度量指标值的实际意义还可以按照维度表中维度层次进行各种统计和分析。
2、维度表 维度表就是存放多维数据模型维度信息的基本表它也包括两个部分一个是主键并作为外键存放在事实表中。另一个是维度名称和维层次等细节信息它为事实表中的每个事实提供了详细的描述信息。 3、星形模型的优势
1星形模型围绕一个确定的主题 体现了数据仓库对数据结构和组织的要求。 2星形模型表达直观易于理解且设计相对容易。 3星形模型维度表包含了用户经常查询和分析的属性优化了对数据库的浏览在维度表和事实表之间没有任何 “迷宫 ”使查询的过程变得简单而直接。 4星形模型为 OLAP 提供了良好的工作条件使 OLAP 能通过星形连接和星形索引显著提高查询性能。 3设计相对较为简单因为不用考虑关系模式规范化化问题。
4、星形模型的不足
1 维度表通常是非规范化的造成很大的数据冗余。 2 由于星形模型中各个维度表主键的组合构成事实表的主键导致维度的变化非常复杂、 费时。 3维度属性的复杂形成的大维度问题比如长文本字段占用存储空间维度数据不易更新和维护大维度表填充数据难度增大。 4处理维的层次关系比较困难特当维的属性复杂时。 5无法表达 “多对多” 的联系。
三雪花模型
1、雪花模型的概念 雪花模型是星形模型按照关系数据库规范化理论对维度表进行分解的结果。其目的是消除数据冗余同时增加更多对事实进行细节描述的信息提高查询分析的灵活性。但其查询效率通常比星型模型表示的多维数据集要低一些。 2、雪花模型优势 因为雪花模型是对星形模型维度表进行分解和规范化的结果所以具有如下优势
1减少了一定数据冗余量节约了许多存储空间; 2处理复杂维度和更新维度更加容易 3表示“多对多”的联系方便 4查询分析更具灵活性
3、雪花模型的不足
1事实表与维度表、详细类别表联系比较复杂用户不易理解。 2浏览查询多维数据内容相对困难。 3额外的详细类别连接操作导致查询性能下降。
六、数据仓库的物理模型 物理数据模型Physical Data Model是描述数据在存储介质上组织结构的数据模型它不但与具体的 DBMS 有关而且还与操作系统和硬件有关是机器世界物理层次的数据模型。
一位图索引模型
重要实用在数据仓库的存储结构中位图索引是一项非常重要且实用的索引模型。索引条件对于那种只取少量几个离散值的属性列属性取值种类在1%以下来说位图索引就是用一个二进制串代替基本表中某一列的取值。索引效果使我们在不触及数据记录的情况下直接通过位图索索引而快速地获得查询结果。 例 某市公安局所在地有200万人口其户籍登记信息包括姓名性别、婚姻状况、籍贯等100多个属性。不失一般性下表仅列出6条记录作为例子。 现在希望快速地查找出满足条件性别“男”and 婚姻状况“未婚”的所有记录。 1、不用索引查询 如果不使用索引就必须从数据库中逐一读出每一条记录到内存然后判断该记录是否满足查询条件。鉴于户籍信息登记表的属性较多102个且登记表中有200万条记录因此这样的查询过程需要花费较长的时间。
2、用位图索引查询 显然户籍信息登记表的性别属性只有 “男”、“女” 两种取值而婚姻状况只有 “未婚”、“已婚”、“离异” 三种取值即属于只取少量几个离散值的属性因此可以为其分别创建位图索引。 性别属性有“男”、“女”两种取值可以为性别属性列创建两个位图索引即两个二进制串。性别 “男” 的位图索引用二进制串101001表示其中每一个位表示对应行的性别是否为“男”。是男则该位取1否则为0。性别取“女”时对应的位图索引为010110。这样就得到性别属性的所有位图索引如下表所示。 对于婚姻状况这一个属性列由于它有三种取值因此应该建立三个位图索引, “已婚”的位图索引为110010“未婚”的为001000“离异”的为000100。可得到婚姻状况属性的所有位图索引如下表所示。 查找性别“男”and 婚姻状况“未婚”的所有记录?取出性别“男”的位图索引101001取出婚姻状况“未婚”的位图索引001001。对两个位图索引进行合取运算得001001。 001001的第3位和第6位是1从户籍登记表中读出第3和第6条记录就是我们需要查询的结果。 位图索引总结
1由于位图索引为二进制串占用空间少且仅仅涉及位的逻辑运算在内存中可实现快速运算并提高查询效率 2位图索引用于类别统计也非常高效比如在户籍登记表中要统计已婚人员数量只需要统计“已婚”位图索引中1的个数即可而不需要读取登记表的每一条记录来逐一判断累加。
3、位图索引的适用条件 通常属性取值种类占总记录数的1%以下就比较适合创建位图索引。
二广义索引模型
广义索引决策分析人员最关心而且经常需要查询的、关于数据仓库的一些统计数据。索引目的提高数据的查询速度。创建方法从操作型数据环境抽取数据并向数据仓库中装载的同时可以根据用户的需要建立各种广义索引而每一次向数据仓库追加数据时就重新生成或更新这些广义索引的内容。这样就无需为建“广义索引”而重新去扫描数据仓库。创建条件对于一些经常性的统计数据查询如果预先建立了 “广义索引”就可直接通过直接查询广义索引来代替对事实表的查询其查询速度显然要比直接查询事实表要快很多。
三连接索引模型
连接索引事实表和维度表中满足连接条件的元组主键形成的索引项并保留在数据仓库系统之中。索引使用每当需要将事实表和维度表进行连接运算时就直接利用链接索引项的指针进行连接运算。 设有关系 RRid,A,B,C,D和SSid,W,X,Y,Z有1000条记录其中 Rid 和 Sid 分别是主键。 它们的全连接为 RSRid,Sid,A,B,C,D,W,X,Y,Z有10个属性100万条记录的大表。 它们的链接索引由两个主键属性形成的索引项RidSid构成虽然也有100万条记录但显然比全连接结果要小得多。 假设满足 R.AS.W 的记录总数为2000条。 若不用连接索引查询满足 R.AS.W 的记录必须从共有100万条记录的全连接关系RSRid,Sid,A,B,C,D,W,X,Y,Z中筛选这2000条记录。使用链接索引如果事先建立了 R.AS.W 的连接索引表RSRid,Sid根据前面分析它仅有2000条记录。
四RAID存储结构 数据仓库这种大数据的存储问题可以选用 RAIDRedundant Array of Inexpensive Disk技术支持的廉价冗余磁盘阵列。 虽然 RAID 磁盘阵列包含多块磁盘甚至几百块磁盘但是在操作系统下是作为一个独立的大型存储设备进行管理的。 RAID 技术分为 RAID0、1、2、3、4、567 等几个不同的等级标准RAID0 又可以配合后面几种进行更多的功能组合形成 RAID10、30、50 等工作方式。这些等级标准分别为用户提供了速度、价格、容量和安全性不相同的磁盘阵列的多种选择。
RAID 0又称为磁盘条带化Striping工作方式。RAID 1又称为镜像Mirroring工作方式。RAID 10或者叫RAID01也可以简单的理解成两个分别由多个磁盘组成的RAID0阵列再进行镜像。由于 RAID 2 是一种比较特殊的专用 RAID 模式与现有的磁盘驱动器不兼容因实现成本比较高目前还没有实际应用。RAID 3 是在 RAID 2 基础上发展而来的采用并行传输及校验工作方式Parallel transfer with parity。主要的变化是用相对简单的异或逻辑运算XOR eXclusive OR校验代替了相对复杂的汉明码校验从而大幅降低了成本。RAID 4 采用带奇偶的条块化工作方式它是 RAID 0 和 RAID 3 工作方式的结合也称为具有共享校验硬盘的独立数据硬盘Independent Data disks with shared Parity diskI/O 传输率比 RAID 3 高但磁盘空间利用率比 RAID 0 低。RAID 5是目前应用最广泛的 RAID 技术。各块独立硬盘进行条带化分割相同的条带区进行奇偶校验异或运算校验数据平均分布在每块硬盘上。以 n 块硬盘构建的 RAID 5 阵列可以有 n-1 块硬盘的容量存储空间利用率非常高。 经过多年的发展RAID技术级别虽然种类众多但一个突出的局限性就是无法容忍两块硬盘同时故障的情况发生。
RAID 6 正是为了解决这个问题而诞生的。 RAID 7 称为最优的异步高 I/O 速率和高数据传输率磁盘Optimized Asynchrony for High I/O Rates as well as High Data Transfer Rates。RAID 7完全可以理解为一个独立的存储计算机它自己的操作系统有自己的处理器有自己的总线而不是通过简单的插卡就可以实现的。 随着 RAID 技术的成熟新的技术标准也不断出现比如还有 RAID 5E、RAID 5EE、RAID 1E、RAID DP 和 RAID ADG 等新的标准它们都试图采用各种新的技术从不同的侧面来保护数据仓库。 对于一般中小企业由于缺乏计算机系统管理人才使用 RAID 1 磁盘阵列的数据仓库服务器会有更高的可靠性、且易于管理。