当前位置：首页 > news >正文

国内单页网站wordpress 点餐主题

news 2025/11/15 0:48:07

国内单页网站,wordpress 点餐主题,房价查询官网,企业型网站建设咨询电话1、动态集合结构#xff0c;它至少要支持 INSERT、SEARCH 和 DELETE字典操作散列表是实现字典操作的一种有效的数据结构。尽管最坏情况下#xff0c;散列表中查找一个元素的时间与链表中查找的时间相同#xff0c;达到了 Θ(n)。在实际应用中#xff0c;散列表的性…1、动态集合结构它至少要支持 INSERT、SEARCH 和 DELETE字典操作散列表是实现字典操作的一种有效的数据结构。尽管最坏情况下散列表中查找一个元素的时间与链表中查找的时间相同达到了 Θ(n)。在实际应用中散列表的性能是极好的。在一些合理的假设下在散列表中查找一个元素的平均时间是 O(1) 2、散列表是普通数组概念的推广。如果存储空间允许可以提供一个数组为每个可能的关键字保留一个位置以利用直接寻址的技术优势当实际存储的关键字数目比全部的可能关键字总数要小时采用散列表就成为直接数组寻址的一种有效替代因为散列表使用一个长度与实际存储的关键字数目成比例的数组来存储在散列表中不是直接把关键字作为数组的下标而是根据关键字计算出相应的下标 1、直接寻址表 1、当关键字的全域U 比较小时直接寻址是一种简单而有效的技术 2、用一个数组或称为直接寻址表记为T[0…m-1]。其中每个位置或称为槽对应全域U中的一个关键字。槽k指向集合中一个关键字为k的元素。如果该集合中没有关键字为k 的元素则 T[k] NIL 几个字典操作 DIRECT-ADDRESS-SEARCH(T, k)return T[k]DIRECT-ADDRESS-INSERT(T, x)T[x.key] xDIRECT-ADDRESS-DELETE(T, x)T[x.key] NIL直接寻址表本身就可以存放动态集合中的元素。直接把该对象存放在表的槽中从而节省了空间。我们使用对象内的一个特殊关键字来表明该槽为空槽比如-1 3、假设一动态集合S 用一个长度为m的直接寻址表T 来表示。给出一个查找S中最大元素的过程 DIRECT-ADDRESS-MAXIMUM(T)max -∞for i 1 to mif T[i] ≠ NIL and T[i].key maxmax T[i].keyj ireturn T[j]过程在最坏情况下的运行时间是 O(m) 4、位向量是一个仅包含0和1的数组 2、散列表 1、直接寻址技术的缺点如果全域U很大要存储大小为 |U| 的一张表T 也许不太实际如果实际存储的关键字集合K 相对U来说可能很小使得分配给T的大部分空间都将被浪费掉 2、当存储在字典中的关键字集合K 比所有可能的关键字的全域U 要小许多时散列表需要的存储空间要比直接寻址表少得多。将散列表的存储需求降至 Θ(|K|)同时散列表中查找一个元素的优势仍得到保持只需要 O(1)的时间。问题是这个界是针对平均情况时间的而对于直接寻址来说它是适用于最坏情况时间的 3、在直接寻址方式下具有关键字k的元素被存放在槽k中。在散列方式下该元素被放在h(k)中即利用散列函数h由关键字k 计算出槽的位置。函数h 将关键字的全域U 映射到散列表 T[0…m - 1]的槽位上可以说一个具有关键字k的元素被散列到槽 h(k) 上也可以说 h(t) 是关键字的散列值。即减少了数组的大小使其由|U|减少为m 4、两个关键字可能映射到同一个槽中我们称这种情形为冲突可以试图选择一个适合的散列函数h 来做到避免冲突一个想法就是使h尽可能的“随机”。但是 |U|m故至少有两个关键字其散列值相同所以要想完全避免冲突是不可能的一方面可以通过精心设计的散列函数来尽量减少冲突的次数另一方面仍需要有解决可能出现冲突的方法 5、最简单的冲突解决方法链接法在链接法中把散列到同一槽中的所有元素都放在一个链表中槽j中有一个指针它指向存储所有散列到j的元素的链表的表头如果不存在这样的元素则槽j中为NIL CHAINED-HASH-INSERT(T, x)insert x at the head of list T[h(x.key)]CHAINED-HASH-SEARCH(T, k)search for an element with key k in list T[h(k)]CHAINED-HASH-DELETE(T, x)delete x from the list T[h(x.key)]插入操作的最坏情况运行时间为 O(1)。查找操作的最坏情况运行时间与表的长度成正比 6、如果散列表中的链表是双向链接的则删除一个元素x的操作可以在 O(1) 时间内完成 CHAINED-HASH-DELETE 以元素x 而不是它的关键字k 作为输入所以无需先搜索x。如果散列表支持删除操作则为了能够更快地删除某一元素应该将其链表设计为双向链接的可以直接找到前驱如果表是单链接的则为了删除元素x我们首先必须在表 T[h(x.key)] 中找到元素x然后通过更改x前驱元素的next属性把x从链表中删除 7、链接法散列分析给定一个能存放n个元素的、具有 m个槽位的散列表T定义T的装载因子α为 n/m即一个链的平均存储元素数用链接法散列的最坏情况性能很差所有的两个关键字都散列到同一个槽中从而产生出一个长度为n的链表。这时最坏情况下查找的时间为 Θ(n)再加上计算散列函数的时间 8、散列方法的平均性能依赖于所选取的散列函数h将所有的关键字集合分布在m个槽位上的均匀程度先假定任何一个给定元素等可能地散列到m个槽位中的任何一个等可能且与其他元素被散列到什么位置上无关独立我们称这个假设为简单均匀散列列表 T[j] 的长度用nj表示有并且 nj 的期望值为 E[nj] a n/m 假定可以在 O(1) 时间内计算出散列值 h(k)从而查找关键字为k的元素的时间线性地依赖于表T[A(k)] 的长度 nh(k) 分两种情况来考虑。在第一种情况中查找不成功表中没有一个元素的关键字为k。在第二种情况中成功地查找到关键字为k的元素 9、在简单均匀散列的假设下对于用链接法解决冲突的散列表一次不成功查找的平均时间为 Θ(1α) 证明当查找一个关键字时在不成功的情况下查找的期望时间就是查找至链表 T[h(k)] 末尾的期望时间这一时间的期望长度为E[nh(k)] α于是一次不成功的查找平均要检查α个元素并且所需要的总时间包括计算 h(k) 的时间为 Θ(1α 对于成功的查找来说情况略有不同这是因为每个链表并不是等可能地被查找到的。某个链表被查找到的概率与它所包含的元素数成正比期望的查找时间仍然是 Θ(1α 10、在简单均匀散列的假设下对于用链接法解决冲变的散列表一次成功查找所需的平均时间为 Θ(1α) 证明在对元素x的一次成功查找中所检查的元素数就是x所在的链表中x前面的元素多1。新的元素都是在表头插入的所以出现在x之前的元素都是在x之后插入的。在简单均匀散列的假设下有 Pr{h(ki) h(kj)} 1/m有 E[Xij] 1/m 于是在一次成功的查找中所检查元素的期望数目为一次成功的查找所需要的全部时间包括计算散列函数的时间为 Θ(2 α / 2 - α / 2n) Θ(1 α) 如果散列表中槽数至少与表中的元素数成正比则有 nO(m)从而 a n / m O(m) / m O(1) 。所以查找操作平均需要常数时间。当链表采用双向链接时插入操作在最坏情况下需要 O(1时间删除操作最坏情况下也需要 O(1) 时间因而全部的字典操作平均情况下都可以在 O(1) 时间内完成 11、假设采用的是简单均匀散列对关键字k和l定义指示器随机变量 Xkl Ⅰ{h(k)h(l)}。在简单均匀散列的假设下有Pr{h(k)h(l)}1/m从而有E[Xkl] 1/m。于是集合{{kl}k≠l且h(k)h(l)}基的期望值是 12、假设将n个关键字存储到一个大小为m 且通过链接法解决冲突的散列表中关键字均源于全域U且 |U| nm 因为 |U| nm所以当将全域U中的所有关键字存储到一个大小为 m 的散列表中时每个槽位中至少有 n 个关键字。因此U中有一个大小为n的子集其由散列到同一槽位中的所有关键字构成使得链接法散列的查找时间最坏情况下为 Θ(n) 3、散列函数 1、其中的两种方法用除法进行散列和用乘法进行散列本质上属于启发式方法而第三种方法全域散列则利用了随机技术来提供可证明的良好性能 2、好的散列函数的特点一个好的散列函数应近似地满足简单均匀散列假设遗憾的是一般无法检查这一条件是否成立因为很少能知道关键字散列所满足的概率分布而且各关键字可能并不是完全独立的常常可以运用启发式方法来构造性能好的散列函数。设计过程中可以利用关键字分布的有用信息一些很相近的符号经常会出现在同一个程序中如 pt 和 pts。好的散列函数应能将这些相近符号散列到相同槽中的可能性最小化一种好的方法导出的散列值在某种程度上应独立于数据可能存在的任何模式注意到散列函数的某些应用可能会要求比简单均匀散列更强的性质。例如可能希望某些很近似的关键字具有截然不同的散列值 3、将关键字转换为自然数多数散列函数都假定关键字的全域为自然数集 N {012…}。因此如果所给关键字不是自然数就需要找到一种方法来将它们转换为自然数。例如一个字符串可以被转换为按适当的基数符号表示的整数这样就可以将标识符pt 转换为十进制整数对112116这是因为在 ASCII字符集中p 112t 116。然后以128为基数二进制转十进制就是以2为基数的来表示pt 即为112×128116 14452 假定所给的关键字都是自然数 3.1 除法散列法 1、通过 k除以m的余数将关键字k 映射到m个槽中的某一个上即散列函数为当应用除法散列法时要避免选择m的某些值。例如m 不应为2的幂因为如果m2p则h(k)就是 k的p个最低位数字除非已知各种最低p位的排列形式为等可能的当 k是一个按基数2p表示的字符串时选 m 2p - 1 可能是一个槽糕的选择如果串x可由串y通过其自身的字符置换排列导出则 x和y具有相同的散列值证明用除法散列表来计算一个字符串的散列值如何才能在除了该串本身占用的空间外只利用常数个机器字在模运算下加法和乘法都满足分配律这样可以在乘法过程中保持结果的大小在合适范围内设字符串x表示成以2p为基数的数为 k a1 a2 … ar根据上一题的结果因为 ai 在 0~2p-2 之间所以 mod(2p-1) 可以直接去 2、一个不太接近2的整数幂的素数常常是m的一个较好的选择。例如假定我们要分配—张散列表并用链接法解决冲突表中大约要存放2000个字符串其中的每个字符有8位。如果我们不介意一次不成功的查找需要平均检查3个元素这样分配散列表的大小为 m701它是一个接近 2000/3 但又不接近2的任何次幂的素数散列函数为h(k) k mod 701 3.2 乘法散列法 1、乘法散列法包含两个步骤第一步用关键字k乘上常数A(0A1并提取 kA 的小数部分。第二步用m乘以这个值再向下取整乘法散列法的一个优点是对m的选择不是特别关键一般选择它为2的某个幂次m2pp为某个整数这是因为我们可以在大多数计算机上按下面所示方法较容易地实现散列函数假设某计算机的字长为w位而k正好可用一个单字表示。限制A为形如 s/2w 的一个分数其中s是一个取自 0s2w 的整数先用w位整数 s A * 2w 左移一个字长乘上k其结果是一个 2w 位的值 r1*2w r0这里 r1 为乘积的高位字r0 为乘积的低位字。所求的 p位散列值中包含了 r0的p个最高有效位m 2p 虽然这个方法对任何的A值都适用但对某些值的效果更好。最佳选择与待散列的数据的特征有关假设 k 123456p 14m 214 16384且 w 32。取A为形如 s/232 的分数它与 (√5-1) / 2 最为接近于是 A 2654435769 / 2 s 2654435769那么k x s 327706022297664 (76300 X 232) 17612864从而有 r1 76300 和 r0 17612864。r0 的 14个最高位产生了散列值 h(k) 67将17612864转成二进制并在前面加上7个零凑够32位取前14位就是67 3.3 全域散列法 1、将 n个关键字全部散列到同一个槽中使得平均的检索时间为 Θ(x)。任何一个特定的散列函数都可能出现这种令人恐怖的最坏情况。唯一有效的改进方法是随机地选择散列函数使之独立于要存储的关键字。这种方法称为全域散列不管选择了怎么样的关键字其平均性能都很好 2、全域散列法在执行开始时就从一组精心设计的函数中随机地选择一个作为散列函数。就像在快速排序中一样随机化保证了没有哪一种输入会始终导致最坏情况性能算法在每一次执行时都会有所不同甚至对于相同的输入都会如此。这样就可以确保对于任何输入算法都具有较好的平均情况性能设 H为一组有限散列函数它将给定的关键字的全域U 映射到 {0, 1, …, m-1} 中这样的一个函数组为全域的。如果从H中随机地选择一个散列函数当关键字 k!l 时两者发生冲突的概率不大于 1/m这也是正好从集合 {01…m - 1} 中独立地随机选择 h(k) 和 h(l) 时发生冲突的概率 3、ni 表示链表 T[i] 的长度。h选自一组全域散列函数。如果关键字k不在表中则 k被散列至其中的链表的期望长度 E[nh(k)] 至多为 α n/m。如果关键字k在表中则包含关键字k的链表的期望长度 E[nh(k)] 至多为 1α 证明期望值与散列函数的选择有关且不依赖于任何有关关键字分布的假设。因为由全域散列函数的定义一对关键字发生冲突的概率至多为 1/m有 Pr{h(k) h(l)} 1/m所以有 E[Xkl] 1/m 对于每个关键字k定义随机变量Yk它表示与k散列到同一槽位中的非k的其他关键字的数目余下部分按关键字k是否在表T中分情况讨论如果 k!∈T则 nh(k) Yk并且 |{ll∈T 且 l!k}| n。于是E[nh(k)] E[Yk] n / m α如果 k∈T由于关键字k出现在链表 T[h(k)] 中且计数Yk中并没有包括关键字k所以 nh(k) Yk 1并且 |{ll∈T 且 l ! k}| n - 1。于是 E[nh(k)] E[Yk] 1 (n - 1) / m 1 1 α - 1/m 1 α 已经无法通过选择一个操作序列来迫使达到最坏情况运行时间了 4、对于一个具有m个槽位且初始时为空的表利用全域散列法和链接法解决冲突需要 Θ(n) 的期望时间来处理任何包含了n个 INSERT、SEARCH和DELETE的操作序列其中该序列包含了 O(m) 个INSERT操作证明在全域散列法和链接法中解决冲突的时间复杂度取决于散列函数的质量和表的装载因子。在这种情况下我们假设散列函数是良好设计的并且在平均情况下能够均匀地将元素分布到表的不同槽位中。表的装载因子是 Θ(1) 的即元素数量与表的大小之比是常数。在这样的假设下全域散列法和链接法解决冲突的平均时间复杂度是 Θ(1)。对于链接法也称为开放地址法在平均情况下对于一个给定的槽位搜索或删除一个元素的时间复杂度是 Θ(1)因为每个槽位是一个链表查找或删除一个元素只需要遍历链表在 INSERT 操作中我们需要计算元素的哈希值然后将其插入到对应槽位的链表中。由于散列函数是均匀的每个槽位的链表平均长度为 Θ(n/m)因此插入的平均时间复杂度是 Θ(1)。因此链接法的平均时间复杂度是 Θ(1) 对于全域散列法在平均情况下搜索或删除一个元素的时间复杂度也是 Θ(1)因为我们可以直接计算出元素所在的槽位在 INSERT 操作中我们需要计算元素的哈希值并找到对应的槽位。由于散列函数是均匀的每个槽位平均只包含 Θ(n/m) 个元素因此插入的平均时间复杂度是 Θ(1)。因此全域散列法的平均时间复杂度也是 Θ(1) 综上所述无论是链接法还是全域散列法对于一个具有 m 个槽位的哈希表在平均情况下处理包含了 n 个 INSERT、SEARCH 和 DELETE 操作的序列的时间复杂度都是 Θ(1)所以整个n个操作序列的期望时间为 Θ(n) 5、设计一个全域散列函数类设 Zp 表示集合 {01…p - 1}Zp* 表示集合 {12…p - 1}由于 p是一个素数对于任何 a∈Zp* 和任何 b∈Zp定义散列函数 hab 散列函数构成的函数簇为这个函数簇是全域的一个散列函数被称为全域散列函数如果它满足以下两个性质 1均匀性对于任意不同的输入键散列函数产生的哈希值在哈希表中的每个槽位中出现的概率相等。换句话说对于任意两个不同的键 1 和 2如果哈希函数 ℎ是全域散列函数则满足Pr[h(k1) h(k2)] 1/m 其中 m 是哈希表的大小Pr[⋅] 表示概率 2独立性全域散列函数的输出在给定一个键的情况下是不可预测的并且与其他键的哈希值无关。换句话说对于一个给定的键 k 和任意给定的哈希值如果哈希函数 ℎ是全域散列函数则满足Pr[h(k) y] 1 / m 其中是哈希表的大小全域散列函数的均匀性和独立性保证了在散列过程中每个键被哈希到哈希表的每个槽位的概率是相等的并且每个键的哈希值都是不可预测的。这样可以最大程度地减少冲突提高哈希表的性能证明这个函数簇是全域的可以导出 r ! s因为 p是素数且 a和(k - l)模p的结果不为0所以它们乘积模p后也不为0。所以计算任何 hab∈Hpm不同的输入k和l会被映射到不同的值r和s模p(r ! s)在模p层次上不会产生冲突线性函数一一对应此外数对(a, b)(a ! 0) 有 p(p - 1)中可能的选择。其中的每一种都会产生一个不同的结果数对 (r, s) (r ! s) 解出 a和b 因为 (r, s) 有p(p - 1)种可能所以数对(a, b) 和数对(r, s)之间存在一一对应的关系。对任意给定的输入对 k和l如果从 Zp* × Zp 中均匀地随机选择(a, b)则结果数对 (r, s) 就等可能地为任何不同的数值对模p 当 r和s为随机选择的不同的值模p时不同的关键字k和l发生冲突的概率等于 r ≡ s(mod m) 的概率。对于某个给定的r值s的可能取值就为余下的 p - 1 种其中满足 s ! r 且 s ≡ r(mod m) 的s值的数目至多为s与r之差正好是m的倍数当模m进行归约时s与r发生冲突的概率至多为 ((p - 1) / m) / (p - 1) 1 / m 6、查找的时候怎么确定关键字使用的是哈希函数族中的哪个哈希函数在构建好哈希表后可以使用相同的哈希函数来执行查找操作。由于哈希函数在构建哈希表时已经确定了在构建的时候参数的值会随着一起保存因此在查找时不需要再确定关键字使用的是哪个哈希函数。相反只需根据哈希函数的定义将关键字哈希到哈希表中的相应槽位上然后执行相应的查找操作即可在全域散列法中参数 a 和 b 通常是选定一个固定的范围并且对于每个不同的关键字都随机选择一组 a 和的值。换句话说对于哈希函数族中的每个哈希函数 h(a, b)都会为每个不同的关键字选择不同的 a 和 b 的值 4、开放寻址法 1、在开放寻址法中所有的元素都存放在散列表里。每个表项或包含动态集合的一个元素或包含 NIL其装载因子α绝对不会超过1 也可以将用作链接的链表存放在散列表未用的槽中但开放寻址法的好处就是它不用使用指针而是计算出要存取的槽序列。不用存储指针而节省空间使得可以用同样的空间来提供更多的槽潜在地减小了冲突提高了检索速度 2、为了使用开放寻址法插入一个元素需要连续地检查散列表或称为探查直到找到一个空槽来放置待插入的关键字为止对于每一个关键字k使用开放寻址法的探查序列 h(k, 1) 为第一个备用… 使得当散列表逐渐填满时每一个表位最终都可以被考虑为用来插入新关键字的槽查找过程中碰到一个空槽时查找算法就非成功地停止因为如果在表中它就应该在此处而不会在探查序列随后的位置上从开放寻址法的散列表中删除操作元素比较困难。当我们从槽i中删除关键字时不能仅将 NIL置于其中来标识它为空如果这样做就会有问题在插人关键字k时发现槽i被占用了则就被插人到后面的位置上此时将i中的关键字删除后就无法检索到关键字了到空就停在槽i中置一个特定的值DELETED替代NIL来标记该槽这样就要对过程HASH-INSERT做相应的修改将这样的一个槽当做空槽使得在此仍然可以插人新的关键字。对HASH-SEARCH无需做什么改动因为它在搜索时会绕过DELETED标识。但是当我们使用特殊的值DELETED时查找时间就不再依赖于装载因子了为此在必须删除关键字的应用中更常见的做法是采用链接法来解决冲突由于删除操作不会改变表的大小因此装载因子不再影响查找操作的性能。在使用开放寻址法时查找操作的性能取决于表中空槽位的数量而不仅仅是已插入元素的数量。它取决于表中空槽位的数量即 1−a因为空槽位的数量越多冲突的可能性就越小查找操作的性能就越好 3、做一个均匀散列的假设每个关键字的探查序列等可能地为01…m-1的m!种排列中的任一种。均匀散列将前面定义过的简单均匀散列的概念加以了一般化推广到散列函数的结果不只是一个数而是一个完整的探查序列有三种技术常用来计算开放定址法中的探查序列线性探查、二次探查和双重探查这些技术都不能满足均匀散列的假设因为他们能产生的不同探查序列数都不超过m2个均匀散列要求有 m! 个探查序列。双重散列产生的探查序列数最多似乎能给出最好的结果 4.1 线性探查 1、给定一个普通的散列函数 h’U-{0, 1, …, m - 1}称之为辅助散列函数线性探查采用的散列函数为对于关键字k首先探查槽 T[h’(k)]即由辅助散列函数所给出的槽位再探查槽 T[h’(k) 1]依次类推直到槽 T[m - 1]。然后又绕到槽 T[0]T[1]…直到最后探查到槽 T[h’(k) - 1]。在线性探查方法中初始探查位置决定了整个序列故只有m种不同的探查序列 2、线性探查存在一个问题称为一次群集。随着连续被占用的槽不断增加平均查找时间也随之不断增加。因为当一个空槽前有i个满的槽该空槽下一个将被占用的概率是 (i 1) / m。连续被占用的槽就会变得越来越长因而平均查找时间也会越来越大 4.2 二次探查 1、散列函数 h’ 是一个辅助散列函数c1和c2 为正的辅助常数i 01…m - 1。初始的探查位置为 T[h’(k)]。后续的探查位置要加上一个偏移量该偏移量以二次的方式依赖于探查序号i。这种探查方法的效果要比线性探查好得多连续被占用的槽就会变得越来越长的情况会缓解 2、如果两个关键字的初始探查位置相同那么它们的探查序列也是相同的这是因为 h(k1, 0) h(k2, 0蕴涵着 h(k1, i) h(k2, i)。这一性质可导致一种轻度的群集称为二次群集。像在线性探查中一样初始探查位置决定了整个序列这样也仅有m个不同的探查序列被用到 4.3 双重散列 1、双重散列是用于开放寻址法的最好方法之一因为它所产生的排列具有随机选择排列的许多特性。散列函数初始探查位置为 T[h1(k)]后续的探查位置是前一个位置加上偏移量h2(k)模m。因此不像线性探查或二次探查这里的探查序列以两种不同方式依赖于关键字k因为初始探查位置、偏移量或者二者都可能发生变化 2、为了能查找整个散列表值h2(k) 必须要与表的大小m 互素两个整数的最大公约数为1。有一种简便的方法确保这个条件成立就是取m为2的幂并设计一个总产生奇数的h2。另一种方法是取m为素数并设计一个总是返回较m小的正整数的函数h2 如果 k 123456m 701m’ 700则有 h1(k) 80h2(k) 257 当m为素数或者 2的幂时双重散列法中用到了 Θ(m2) 种探查序列而线性探查或二次探查中用了 Θ(m) 种因为每一对可能的 (h1(k), h2(k)) 都会产生一个不同的探查序列。因此对于m的每一种可能取值双重散列的性能看起来就非常接近“理想的”均匀散列的性能尽管除素数和2的幂以外的m值在理论上也能用于双重散列中但是在实际中要高效地产生 h2(k) 确保使其与m互素很困难。部分原因是这些数的相对密度 ɸ(m) / m 可能比较小 3、开放寻址散列的分析像在链接法中的分析一样开放寻址法的分析也是以散列表的装载因子 α n / m 来表达的当然使用开放寻址法每个槽中至多只有一个元素因而 n m也就意味着 α ≤ 1 每一种探查序列都是等可能的给定一个装载因子为 a n/m ≤ 1 的开放寻址散列表并假设是均匀散列的则对于一次不成功的查找其期望的探查次数至多为 1 / (1 - a) 证在不成功的查找中除了最后一次探查每一次探查都要检查一个被占用但并不包含所求关键字的槽最后检查的槽是空的。先定义随机变量X 为一次不成功的探查次数再定义事件 Aii 1, 2, …) 为第i次探查且探查到的是一个已经被占用的槽。事件 {Xi} 即为事件 A1∩A2∩…∩Ai - 1的交集由于有n个元素和m个槽所以 Pr{A1} n / m。在前j - 1次探查到的都是已经占用槽的前提下第j次探查且探查到的仍是已占用槽的概率是 (n - j 1) / (m - j 1)。因为要在 (m - (j - 1)) 个未探查的槽中查找余下的 (n - (j - 1)) 个元素中的某一个。注意到 nm对于所有j0 j m就有 (n - j) / (m - j) n/m。等比计算公式 4、假设采用的是均匀散列平均情况下向一个装载因子为α的开放寻址散列表中插入一个元素至多需要做 1/(1 - α) 次探查证明只有当表中有空槽时才可以插入新元素故 α1。插入一个关键字要先做一次不成功的查找然后将该关键字置入第一个遇到的空槽中所以跟不成功的查找一样期望的探查次数至多为 1/(1 - α) 5、对于一个装载因子为 α1 的开放寻址散列表一次成功查找中的探查期望数至多为假设采用均匀散列且表中的每个关键字被查找的可能性是相同的证明根据4如果 k是第 i1 个被插入表中的关键字则对k的一次查找中探查的期望次数至多为 1/(1 - i / m) m / (m - i)对散列表中所有n个关键字求平均则得到一次成功查找的探查期望次数为综合 35 当装载因子为3/4 和 7/8 时一次不成功查找的探查期望数上界分别为4和8一次成功查找的探查期望数上界分别为 4/3 ln4 和 8/7 ln8 6、写出 HASH-DELETE 的伪代码修改 HASH-INSERT使之能处理特殊值 DELETED HASH-DELETE(T, k)for i 0 to m-1j h(k, i)if T[j] kT[j] DELETEDreturnHASH-INSERT(T, k)i 0repeatj h(k, i)if T[j] NIL or T[j] DELETED // 区别T[j] kreturn jelse i i 1until i merror hash table overflow5、完全散列 1、使用散列技术通常是个好的选择不仅是因为它有优异的平均情况性能而且当关键字集合是静态时散列技术也能提供出色的最坏情况性能。所谓静态就是指一旦各关键字存入表中关键字集合就不再变化了 2、一种散列方法称为完全散列如果该方法进行查找时能在最坏情况下用 O(1) 次访存完成采用两级的散列方法来设计完全散列方案在每级上都使用全域散列第一级与带链接的散列表基本上是一样的利用从某一全域散列函数族中仔细选出的一个散列函数h将n个关键字散列到 m个槽中然后采用了一个较小的二次散列表 Sj 及相关的散列函数 hj利用精心选择的散列函数hj可以确保在第二级上不出现冲突为了确保在第二级上不出现冲突需要让散列表 Sj 的大小 mj 为散列到槽j中的关键字数 nj 的平方尽管 mj 对 nj 的这种二次依赖看上去可能使得总体存储需求很大通过适当地选择第一级散列函数可以将预期使用的总体存储空间限制为 O(n) 3、如果从一个全域散列函数类中随机选出散列函数h将 n个关键字存储在一个大小为 m n2 的散列表中那么表中出现冲突的概率小于 1/2 证明共有 Cn2 对关键字可能发生冲突如果A 是从一个全域散列函数类H 中随机选出那么每一对关键字冲突的概率为 1 / m。当 m n2 时期望的冲突次数为运用马尔可夫不等式 4、下面的定理和一个推论给出了所有二级散列表的大小加起来后的期望值的界第二个推论给出了所有二级散列表的大小加起来后超过线性时的概率的一个上界(实际上后面的证明中超过线性是指等于或大于4n 1定理如果从某一个全域散列函数类中随机选出散列函数h用它将n个关键字存储到一个大小为 m n 的散列表中则有这里 nj 为散列到槽j中的关键字数证明从下面的恒等式开始这个等式对任何非负的整数a成立所以有里面涉及到加法原理 2推论1如果从某一全域散列函数类中随机选出散列函数h用它将n个关键字存储到一个大小为 m n 的散列表中并将每个二次散列表的大小设置为 mj (nj)2j 01…m-1则在一个完全散列方案中存储所有二次散列表所需的存储总量的期望值小于2n 证明由 (1) 3推论2如果从某一全域散列函数类中随机选出散列函数h用它将n个关键字存储到一个大小为 m n 的散列表中并将每个二级散列表的大小置为 mj (nj)2 (j 0, 1, …, m - 1)则用于存储所有二级散列表的存储总量等于或大于 4n的概率小于 1/2 证明用马尔可夫不等式即 Pr{X t} E[X] / t。并将入推论1中不等式从推论2 可得只需从全域散列函数类中随机选出几个散列函数尝试几次就可以快速找到一个所需存储量较为合理的函数

查看全文

http://www.zqtcl.cn/news/987578/