1. 问题
问题同《》,这个例子并不是特别恰当,当在于简单,数字小,方便验证,方便理解,特别是计算概率的部分。
设有10个非负整数,用不多于20个的储存单元来存放,如何存放这10个数,使得搜索其中的某一个数时,在储存单元中查找的次数最少?
问题类似于,有10个带号码的球,放到编号为{0, 1, 2, …, 19}共20个盒子中,每个盒子最多放一个,问如何放,使能够用最少的次数打开盒子,知道任一个球所在的盒子编号?
2. 分析
《》中,我们提到用单散列算法来解决冲突,比简单散列算法冲突的比率有所降低,但18%的冲突率,对于实际应用来说还是略偏高,《初等数论及其应用》中,说明是从另一个角度来说明该冲突率高的原因。
设 h0(k) ≡ k (mod m), k = 球号, m = 盒子数量
hj(k) ≡ h0(k) + j,0<= j < m, hj(k) 表示发生 j 次冲突后,球所放入的盒子编号
∴ hj+1(k) ≡ h0(k) + (j + 1) ≡ hj(k) + 1
∴ 只要有一个hi(k1) ≡ hj(k2)
则所有的hi+n(k1) ≡ hj+n(k2) (n = {0, 1, 2, …})
用数学归纳法可以很容易的证明
也可以用同余算法如下证明:
hi+n(k1) ≡ h0(k2) + n
∵ hi(k1) ≡ hj(k2)
∴ hi+n(k1) ≡ hj(k2) + n ≡ hj+n(k2)
∴ 只要有一个球对应的盒子编号hi(k1)与另一个hj(k2)冲突,则会有无数对 hi(k1)+n 和 hj(k2)+n 冲突
如《》测试的数据中,0和19冲突,则 0+1 = 1 和 19+1 = 20也是冲突的,类似, 2和21, 3和22等等都会冲突,也就是说,只要球号中有对应的连续数列,就特别容易产生冲突,导致该序列查找的次数会剧增,这个问题称为”clustering”,书中《初等数论及其应用》中翻译为堵塞,我觉得翻译为聚集冲突更合适,这是因为简单的加1不能使数字不能足够分散所致。
这里用一组聚集冲突的数据演示一下:
numList = [0, 1, 2, 19, 20, 21, 18, 44, 17, 38, 77];
测试结果发现,所有的连续数列的球号都排在前8个序号的盒子中,冲突的序列都需要4次的查找,而38因为和连续数列的第一个数字同余冲突,导致的查找次数更是达到8次,如果散列函数处理的数据中有如此的序列,那么算法性能会急剧下降。
为了解决这个问题,既然有单散列算法,那么自然就想到双散列算法。
3. 双重散列算法
双散列算法为了解决单散列算法中 +j 过于连续,不够分散而来,同时能够进一步降低冲突率。其为了进一步分散冲突的数字,对冲突的球的数字再一次进行散列
h0(k) ≡ k (mod m), k = 球号
m = 盒子的数量,m 取接近最大盒子数量的素数
散列函数1 : g(k) ≡ k + 1 (mod m -2)
散列函数2 : hj(k) ≡ h0(k) + j*g(k) (mod m), hj(k) 表示发生 j 次冲突后,球所放入的盒子编号
注意g(k)的模变了,变为 (m-2),为什么要用这个,一会分析冲突要用
4.双重散列生成示例
仍用《》中的测试数据{0, 1, 2, 7, 9, 15, 19, 20, 77, 38}
m = 19, m-2 = 17
球号 | 0 | 1 | 2 | 7 | 9 | 15 | 19 | 20 | 77 | 38 |
模19余数 | 0 | 1 | 2 | 7 | 9 | 15 | 0 | 1 | 4 | 0 |
分配前6个球时没有冲突,分配如下:
盒子编号 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
球号 | 0 | 1 | 2 | 7 | 9 | 15 |
当分配到第7个球19时,h0(19) ≡ 0 (mod 19), 需要放到编号为0的盒子,此时产生第一次冲突计算h1(k)
g(k) ≡ g(19) ≡ 19 + 1 ≡ 3 (mod 17)
h1(19) ≡ h0(19) + 1*g(19) ≡ 0 + 1*3 ≡ 3 (mod 19)
所以19该放至编号为3的盒子,该盒子为空,不冲突,放入即可。
类似的,可以求到前9个球放入的盒子的位置,都只有一次冲突:
盒子编号 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
球号 | 0 | 1 | 2 | 19 | 20 | 7 | 9 | 77 | 15 |
当分配最后一个球38时,h0(38) ≡ 0 (mod 19), 第一次冲突
g(38) ≡ 38 + 1 ≡ 5 (mod 17)
h1(38) ≡ h0(38) + 1*g(38) ≡ 5 (mod 19),发现扔和20号球冲突,进一步计算h2(k):
h2(38) ≡ h0(38) + 2*g(38) ≡ 10 (mod 19),无冲突
通过整个上述散列函数计算过程,最终的散列值经过再次散列与冲突的次数 j 相乘后,最终的分配都比较分散,间隔相对均匀,因此冲突数显著减少
5. 双重散列函数聚集冲突问题
若双重散列函数要发生聚集冲突,则
若双重散列函数hi(k1)与另一个hj(k2)冲突(k1 != k2),且有hi+1(k1) 和 hj+1(k2) 冲突时:
∵ hi(k1) ≡ hj(k2)
∴ hi(k1) ≡ h0(k1) + i*g(k1) ≡ hj(k2) ≡ h0(k2) + j*g(k2)
∴ h0(k1) + i*g(k1) ≡ h0(k2) + j*g(k2) ①
同理:
∵ hi+1(k1) ≡ hj+1(k2)
∴ h0(k1) +(i+1)*g(k1) ≡ h0(k2) + (j+1)*g(k2) ②
根据同余算法,②减①得:
g(k1) ≡ g(k2) (mod m)
∵ 0 < g(k) < m – 2
∴ g(k) 都为最小余数
∴ g(k1) = g(k2)
∴ k1 + 1 ≡ k2 + 1 (mod m-2)
∴ k1 ≡ k2 (mod m-2) ③
Rosen的《初等数论及其应用》第6版207页给出了该证明,但为了证明双重散列函数没有单散列函数的”clustering”问题,也就是书中所翻译堵塞问题(我觉得翻译有误,按照说明更合适的翻译应该是集中或聚集问题,即一段有序的数列一旦有一个数和另一段有序数列冲突,则会2段序列中后续的数列都会冲突,导致查找步骤急剧增加),其接着说如果上述条件成立,则可简化同余式①,得:
h0(k1) ≡ h0(k2) (mod m)
即:k1 ≡ k2 (mod m)
从而得出,在 m(m-2)内只有唯一的一个解得结论,即不会有冲突
我尝试证明这个省掉的步骤未果,但却找到一个反例了,我给该书的作者Rosen写了封邮件,但一直没回我,如看帖的朋友能补齐该证明请告诉我。
反例:当m = 19, m-2 = 17时:
设k1 = 1, k2 = 18
∴ h0(k1) = 1, h0(k2) = 18 (mod 19)
∴ k1 ≡ 1 ≡ k2 ≡ 18 (mod 17) , 满足同余③
同余式①:
h0(k1) + i*g(k1) ≡ 1 + i (mod m = 19)
h0(k2) + j*g(k2) ≡ 18 + j
易知:当 i = 0, j = 2时,他们成立(1 ≡ 20)
但1 ≡ 18 (mod 19) 并不成立
但是如果加一个条件: i = j
∵ g(k1) = g(k2)
∴ i*g(k1) = j*g(k2)
∴ h0(k1) ≡ h0(k2) (mod m)
即:k1 ≡ k2 (mod m)
根据中国剩余定理,只同时满足:
k1 ≡ k2 (mod m-2)
k1 ≡ k2 (mod m)
当m 和 m -2互素时,公式 x ≡ a (mod m-2), x ≡ a (mod m) 在 m(m-2)的范围内有且只有一个唯一解:
即: k1 = k2 (k < m(m-2))
所以在m(m-2)范围内不会有2个数k1, k2模m冲突的情况下,又有hj(k) ≡ h0(k) + j*g(k) (mod m)再次冲突
但是仍然会发生,k1, k2模m冲突,且hj(k)又和另一个k3冲突的情况。
6. 双重散列函数冲突概率问题
为了简单,我们仍然只考虑在h0(k)冲突时,h1(k) ≡ h0(k) + 1*g(k) (mod m)再次冲突的概率:
仍设最大的球号为 s:
1> 由第5部分的证明知,当 s < m(m-2))时,这种冲突概率为0
2> 当 s > m(m-2)时,设k为第一个球的球号
根据中国剩余定理知,其他解 kx ≡ k (mod m(m-2)),会满足:
kx ≡ k (mod m-2)
kx ≡ k (mod m)
即会产生h0(k)和h1(k)的同时冲突,其概率为每m(m-2)个数内会出现一次
故其冲突概率 = 1/m(m-2)
当m = 19时,冲突概率 = 0.31%,这个概率明显要比简单散列函数和单散列函数要低得多,所以双重散列函数的冲突率是非常低的
7. python code 和演示结果
1 m = 19; #m -2 = 17, is a prime number 2 3 #g(k) = (k + 1) % (m - 2) 4 #h(k) = k % m 5 #hj(k) = h(k) + j*g(k) 6 def DoubleHash(numList): 7 if len(numList) > m: 8 print "num list len is :", len(numList), "is big than mod :", m; 9 return None;10 11 hashList = [None] * m;12 for k in numList:13 for j in range(m):14 g_k = (k + 1) % (m - 2);15 hj_k = (k + j * g_k) % m;16 if None == hashList[hj_k]:17 hashList[hj_k] = k;18 break;19 else:20 print "num list is too big, hash list is overflow";21 return None;22 23 return hashList;24 25 def CheckDoubleHash(numList, hashList):26 if None == hashList:27 return;28 29 for k in numList:30 for j in range(m):31 g_k = (k + 1) % (m - 2);32 hj_k = (k + j * g_k) % m;33 #check the key is equal with the one in hash list, if not check the next one34 if hashList[hj_k] == k:35 if j > 0:36 print k, "find", j+1, "times";37 break;38 else:39 print k, "conflict with", hashList[hj_k]; 40 else:41 print k, "is not find...";42 return False;43 44 return True;
测试时,设置了m = 19
测试数列为: numList = [0, 1, 2, 7, 9, 15, 19, 20, 77, 38],为了测试冲突,故意设置了一些冲突数,为了减少无用的输出,对于没有冲突的就不打出了,测试结果如下:
只有38在发生了冲突1次,而且,所有的球号分散相对单散列函数分布要分散得多,说明双重散列函数分散效果均匀性更好,从而冲突率是非常低的
同时,注意,实际上38 < 17*19, 仍然发生冲突了,原因就是38和0冲突后,h1(38) = 20,又和20冲突,从而导致其最终经过双重散列后仍有冲突
再看下双重散列函数对第2部分的聚集冲突的连续数列处理结果:
numList = [0, 1, 2, 19, 20, 21, 18, 44, 17, 38, 77];
可以发现,冲突大大减少,没有高于3次的查找,且连续数列{19, 20, 21}被分散开来,有效的减少了单散列函数聚集冲突问题