博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
散列函数之双重散列算法解决冲突问题
阅读量:5217 次
发布时间:2019-06-14

本文共 5561 字,大约阅读时间需要 18 分钟。

1. 问题

问题同《》,这个例子并不是特别恰当,当在于简单,数字小,方便验证,方便理解,特别是计算概率的部分。

设有10个非负整数,用不多于20个的储存单元来存放,如何存放这10个数,使得搜索其中的某一个数时,在储存单元中查找的次数最少?

问题类似于,有10个带号码的球,放到编号为{0, 1, 2, …, 19}共20个盒子中,每个盒子最多放一个,问如何放,使能够用最少的次数打开盒子,知道任一个球所在的盒子编号?

 

2. 分析

《》中,我们提到用单散列算法来解决冲突,比简单散列算法冲突的比率有所降低,但18%的冲突率,对于实际应用来说还是略偏高,《初等数论及其应用》中,说明是从另一个角度来说明该冲突率高的原因。

设 h0(k) ≡ k (mod m), k = 球号, m = 盒子数量

hj(k) ≡ h0(k) + j,0<= j < m,  hj(k) 表示发生 j 次冲突后,球所放入的盒子编号

∴ hj+1(k) ≡ h0(k) + (j + 1) ≡ hj(k) + 1

∴ 只要有一个hi(k1) ≡ hj(k2)

则所有的hi+n(k1) ≡ hj+n(k2) (n = {0, 1, 2, …})

用数学归纳法可以很容易的证明

也可以用同余算法如下证明:

hi+n(k1) ≡ h0(k2) + n

∵ hi(k1) ≡ hj(k2)

∴ hi+n(k1) ≡ hj(k2) + n ≡ hj+n(k2)

∴ 只要有一个球对应的盒子编号hi(k1)与另一个hj(k2)冲突,则会有无数对 hi(k1)+n 和 hj(k2)+n  冲突

如《》测试的数据中,0和19冲突,则 0+1 = 1 和 19+1 = 20也是冲突的,类似, 2和21, 3和22等等都会冲突,也就是说,只要球号中有对应的连续数列,就特别容易产生冲突,导致该序列查找的次数会剧增,这个问题称为”clustering”,书中《初等数论及其应用》中翻译为堵塞,我觉得翻译为聚集冲突更合适,这是因为简单的加1不能使数字不能足够分散所致。

这里用一组聚集冲突的数据演示一下:

numList = [0, 1, 2, 19, 20, 21, 18, 44, 17, 38, 77];

测试结果发现,所有的连续数列的球号都排在前8个序号的盒子中,冲突的序列都需要4次的查找,而38因为和连续数列的第一个数字同余冲突,导致的查找次数更是达到8次,如果散列函数处理的数据中有如此的序列,那么算法性能会急剧下降。

 

为了解决这个问题,既然有单散列算法,那么自然就想到双散列算法。

 

3. 双重散列算法

双散列算法为了解决单散列算法中 +j 过于连续,不够分散而来,同时能够进一步降低冲突率。其为了进一步分散冲突的数字,对冲突的球的数字再一次进行散列

h0(k) ≡ k (mod m), k = 球号

m = 盒子的数量,m 取接近最大盒子数量的素数

散列函数1 : g(k) ≡ k + 1 (mod m -2)

散列函数2 : hj(k) ≡ h0(k) + j*g(k) (mod m),  hj(k) 表示发生 j 次冲突后,球所放入的盒子编号

注意g(k)的模变了,变为 (m-2),为什么要用这个,一会分析冲突要用

 

4.双重散列生成示例

仍用《》中的测试数据{0, 1, 2, 7, 9, 15, 19, 20, 77, 38}

m = 19, m-2 = 17

球号 0 1 2 7 9 15 19 20 77 38
模19余数 0 1 2 7 9 15 0 1 4 0

分配前6个球时没有冲突,分配如下:

盒子编号 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
球号 0 1 2         7   9           15  

当分配到第7个球19时,h0(19) ≡ 0 (mod 19), 需要放到编号为0的盒子,此时产生第一次冲突计算h1(k)

g(k) ≡ g(19) ≡ 19 + 1 ≡ 3 (mod 17)

h1(19) ≡ h0(19) + 1*g(19) ≡ 0 + 1*3 ≡ 3 (mod 19)

所以19该放至编号为3的盒子,该盒子为空,不冲突,放入即可。

类似的,可以求到前9个球放入的盒子的位置,都只有一次冲突:

盒子编号 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
球号 0 1 2 19   20   7   9   77       15  

当分配最后一个球38时,h0(38) ≡ 0 (mod 19), 第一次冲突

g(38) ≡ 38 + 1 ≡ 5 (mod 17)

h1(38) ≡ h0(38) + 1*g(38) ≡ 5 (mod 19),发现扔和20号球冲突,进一步计算h2(k):

h2(38) ≡ h0(38) + 2*g(38) ≡ 10 (mod 19),无冲突

通过整个上述散列函数计算过程,最终的散列值经过再次散列与冲突的次数 j 相乘后,最终的分配都比较分散,间隔相对均匀,因此冲突数显著减少

 

5. 双重散列函数聚集冲突问题

若双重散列函数要发生聚集冲突,则

若双重散列函数hi(k1)与另一个hj(k2)冲突(k1 != k2),且有hi+1(k1) 和  hj+1(k2) 冲突时:

∵ hi(k1) ≡ hj(k2)

∴ hi(k1) ≡ h0(k1) + i*g(k1) ≡ hj(k2) ≡ h0(k2) + j*g(k2)

∴ h0(k1) + i*g(k1) ≡ h0(k2) + j*g(k2)                      ①

同理:

∵ hi+1(k1) ≡ hj+1(k2)

∴ h0(k1) +(i+1)*g(k1) ≡ h0(k2) + (j+1)*g(k2)          ②

根据同余算法,②减①得:

g(k1) ≡ g(k2)   (mod m)

∵ 0 < g(k) < m – 2

∴ g(k) 都为最小余数

∴ g(k1) = g(k2)

∴ k1 + 1  ≡ k2 + 1 (mod m-2)

k1  ≡ k2  (mod m-2)                                          ③

 

Rosen的《初等数论及其应用》第6版207页给出了该证明,但为了证明双重散列函数没有单散列函数的”clustering”问题,也就是书中所翻译堵塞问题(我觉得翻译有误,按照说明更合适的翻译应该是集中或聚集问题,即一段有序的数列一旦有一个数和另一段有序数列冲突,则会2段序列中后续的数列都会冲突,导致查找步骤急剧增加),其接着说如果上述条件成立,则可简化同余式①,得:

h0(k1)  ≡ h0(k2) (mod m)

即:k1  ≡ k2  (mod m)

从而得出,在 m(m-2)内只有唯一的一个解得结论,即不会有冲突

我尝试证明这个省掉的步骤未果,但却找到一个反例了,我给该书的作者Rosen写了封邮件,但一直没回我,如看帖的朋友能补齐该证明请告诉我。

反例:当m = 19, m-2 = 17时:

设k1 = 1, k2 = 18

∴ h0(k1) = 1, h0(k2) = 18 (mod 19)

k1  ≡ 1 ≡ k2  ≡ 18   (mod 17) , 满足同余③

同余式①:

h0(k1) + i*g(k1) ≡ 1 + i     (mod m = 19)

h0(k2) + j*g(k2)  ≡ 18 + j                

易知:当 i  = 0, j = 2时,他们成立(1 ≡ 20)

但1  ≡ 18  (mod 19) 并不成立

 

但是如果加一个条件: i = j

∵ g(k1) = g(k2)

∴ i*g(k1) = j*g(k2

∴ h0(k1)  ≡ h0(k2) (mod m)

即:k1  ≡ k2  (mod m)

根据中国剩余定理,只同时满足:

k1  ≡ k2  (mod m-2)

k1  ≡ k2  (mod m)

当m 和 m -2互素时,公式 x ≡ a (mod m-2), x ≡ a (mod m) 在 m(m-2)的范围内有且只有一个唯一解:

即: k1 = k2   (k < m(m-2))

所以在m(m-2)范围内不会有2个数k1, k2模m冲突的情况下,又有hj(k) ≡ h0(k) + j*g(k) (mod m)再次冲突

但是仍然会发生,k1, k2模m冲突,且hj(k)又和另一个k3冲突的情况。

 

6. 双重散列函数冲突概率问题

为了简单,我们仍然只考虑在h0(k)冲突时,h1(k) ≡ h0(k) + 1*g(k) (mod m)再次冲突的概率:

仍设最大的球号为 s:

1> 由第5部分的证明知,当 s < m(m-2))时,这种冲突概率为0

2> 当 s > m(m-2)时,设k为第一个球的球号

根据中国剩余定理知,其他解 kx ≡ k (mod m(m-2)),会满足:

kx  ≡ k  (mod m-2)

kx  ≡ k  (mod m)

即会产生h0(k)和h1(k)的同时冲突,其概率为每m(m-2)个数内会出现一次

故其冲突概率 = 1/m(m-2)

当m = 19时,冲突概率 = 0.31%,这个概率明显要比简单散列函数和单散列函数要低得多,所以双重散列函数的冲突率是非常低的

 

7. python code 和演示结果

1 m = 19;         #m -2 = 17, is a prime number 2  3 #g(k) = (k + 1) % (m - 2) 4 #h(k) = k % m 5 #hj(k) = h(k) + j*g(k) 6 def DoubleHash(numList): 7     if len(numList) > m: 8         print "num list len is :", len(numList), "is big than mod :", m; 9         return None;10 11     hashList = [None] * m;12     for k in numList:13         for j in range(m):14             g_k = (k + 1) % (m - 2);15             hj_k = (k + j * g_k) % m;16             if None == hashList[hj_k]:17                 hashList[hj_k] = k;18                 break;19         else:20             print "num list is too big, hash list is overflow";21             return None;22 23     return hashList;24     25 def CheckDoubleHash(numList, hashList):26     if None == hashList:27         return;28 29     for k in numList:30         for j in range(m):31             g_k = (k + 1) % (m - 2);32             hj_k = (k + j * g_k) % m;33             #check the key is equal with the one in hash list, if not check the next one34             if hashList[hj_k] == k:35                 if j > 0:36                     print k, "find", j+1, "times";37                 break;38             else:39                 print k, "conflict with", hashList[hj_k]; 40         else:41             print k, "is not find...";42             return False;43 44     return True;

 

测试时,设置了m = 19

测试数列为: numList = [0, 1, 2, 7, 9, 15, 19, 20, 77, 38],为了测试冲突,故意设置了一些冲突数,为了减少无用的输出,对于没有冲突的就不打出了,测试结果如下:

只有38在发生了冲突1次,而且,所有的球号分散相对单散列函数分布要分散得多,说明双重散列函数分散效果均匀性更好,从而冲突率是非常低的

同时,注意,实际上38 < 17*19, 仍然发生冲突了,原因就是38和0冲突后,h1(38) = 20,又和20冲突,从而导致其最终经过双重散列后仍有冲突

 

再看下双重散列函数对第2部分的聚集冲突的连续数列处理结果:

numList = [0, 1, 2, 19, 20, 21, 18, 44, 17, 38, 77];

可以发现,冲突大大减少,没有高于3次的查找,且连续数列{19, 20, 21}被分散开来,有效的减少了单散列函数聚集冲突问题

转载于:https://www.cnblogs.com/organic/p/6283476.html

你可能感兴趣的文章
Fire!
查看>>
博客园是一个不错的学习交流的网站
查看>>
thinkphp5 验证器 validate 和 layer
查看>>
c++ 赋值操作符的返回值
查看>>
洛谷P2777
查看>>
.Net写txt文件-简单的记录执行日志信息代码
查看>>
Ajax
查看>>
g.i.cs和g.cs
查看>>
二十一、NFS服务
查看>>
降维算法学习
查看>>
操作系统 进程(下)
查看>>
Letterbox,Pillarbox和Pan&Scan
查看>>
Python_Automation_02Selenuim00
查看>>
JavaScript 对象拷贝研究
查看>>
Gradle task
查看>>
fullpage实现(-)
查看>>
K最邻近算法(K-Nearest Neighbor,KNN)(初探)
查看>>
Push notification - Caused by java.io.IOException toDerInputStream rejects tag
查看>>
每日软件进度报告—12月10日
查看>>
统治世界的十大算法
查看>>