共计 1960 个字符,预计需要花费 5 分钟才能阅读完成。
算法 (1)- 字符串匹配的 Boyer-Moore 算法
然而,它并不是效率最高的算法,理论采纳并不多。各种文本编辑器的 ” 查找 ” 性能(Ctrl+F),大多采纳 Boyer-Moore 算法。
Boyer-Moore 算法不仅效率高,而且构思奇妙,容易了解。1977 年,德克萨斯大学的 Robert S. Boyer 传授和 J Strother Moore 传授创造了这种算法。
上面,我依据 Moore 传授本人的例子来解释这种算法。
1.
假设字符串为 ”HERE IS A SIMPLE EXAMPLE”,搜索词为 ”EXAMPLE”。
2.
首先,” 字符串 ” 与 ” 搜索词 ” 头部对齐,从尾部开始比拟。
这是一个很聪慧的想法,因为如果尾部字符不匹配,那么只有一次比拟,就能够晓得前 7 个字符(整体上)必定不是要找的后果。
咱们看到,”S” 与 ”E” 不匹配。这时,“S” 就被称为 ” 坏字符 ”(bad character),即不匹配的字符。 咱们还发现,”S” 不蕴含在搜索词 ”EXAMPLE” 之中,这意味着能够把搜索词间接移到 ”S” 的后一位。
3.
仍然从尾部开始比拟,发现 ”P” 与 ”E” 不匹配,所以 ”P” 是 ” 坏字符 ”。然而,”P” 蕴含在搜索词 ”EXAMPLE” 之中。所以,将搜索词后移两位,两个 ”P” 对齐。
4.
咱们由此总结出 “ 坏字符规定 ”:
后移位数 = 坏字符的地位 – 搜索词中的上一次呈现地位
如果 ” 坏字符 ” 不蕴含在搜索词之中,则上一次呈现地位为 -1。
以 ”P” 为例,它作为 ” 坏字符 ”,呈现在搜索词的第 6 位(从 0 开始编号),在搜索词中的上一次呈现地位为 4,所以后移 6 – 4 = 2 位。再以后面第二步的 ”S” 为例,它呈现在第 6 位,上一次呈现地位是 -1(即未呈现),则整个搜索词后移 6 – (-1) = 7 位。
5.
仍然从尾部开始比拟,”E” 与 ”E” 匹配。
6.
比拟后面一位,”LE” 与 ”LE” 匹配。
7.
比拟后面一位,”PLE” 与 ”PLE” 匹配。
8.
比拟后面一位,”MPLE” 与 ”MPLE” 匹配。 咱们把这种状况称为 ” 好后缀 ”(good suffix),即所有尾部匹配的字符串。 留神,”MPLE”、”PLE”、”LE”、”E” 都是好后缀。
9.
比拟前一位,发现 ”I” 与 ”A” 不匹配。所以,”I” 是 ” 坏字符 ”。
10.
依据 ” 坏字符规定 ”,此时搜索词应该后移 2 –(-1)= 3 位。问题是,此时有没有更好的移法?
11.
咱们晓得,此时存在 ” 好后缀 ”。所以,能够采纳 “ 好后缀规定 ”:
后移位数 = 好后缀的地位 – 搜索词中的上一次呈现地位
举例来说,如果字符串 ”ABCDAB” 的后一个 ”AB” 是 ” 好后缀 ”。那么它的地位是 5(从 0 开始计算,取最初的 ”B” 的值),在 ” 搜索词中的上一次呈现地位 ” 是 1(第一个 ”B” 的地位),所以后移 5 – 1 = 4 位,前一个 ”AB” 移到后一个 ”AB” 的地位。
再举一个例子,如果字符串 ”ABCDEF” 的 ”EF” 是好后缀,则 ”EF” 的地位是 5,上一次呈现的地位是 -1(即未呈现),所以后移 5 – (-1) = 6 位,即整个字符串移到 ”F” 的后一位。
这个规定有三个留神点:
(1)” 好后缀 ” 的地位以最初一个字符为准。假设 ”ABCDEF” 的 ”EF” 是好后缀,则它的地位以 ”F” 为准,即 5(从 0 开始计算)。
(2)如果 ” 好后缀 ” 在搜索词中只呈现一次,则它的上一次呈现地位为 -1。比方,”EF” 在 ”ABCDEF” 之中只呈现一次,则它的上一次呈现地位为 -1(即未呈现)。
(3)如果 ” 好后缀 ” 有多个,则除了最长的那个 ” 好后缀 ”,其余 ” 好后缀 ” 的上一次呈现地位必须在头部。比方,假设 ”BABCDAB” 的 ” 好后缀 ” 是 ”DAB”、”AB”、”B”,请问这时 ” 好后缀 ” 的上一次呈现地位是什么?答复是,此时采纳的好后缀是 ”B”,它的上一次呈现地位是头部,即第 0 位。这个规定也能够这样表白:如果最长的那个 ” 好后缀 ” 只呈现一次,则能够把搜索词改写成如下模式进行地位计算 ”(DA)BABCDAB”,即虚构退出最后面的 ”DA”。
回到上文的这个例子。此时,所有的 ” 好后缀 ”(MPLE、PLE、LE、E)之中,只有 ”E” 在 ”EXAMPLE” 还呈现在头部,所以后移 6 – 0 = 6 位。
12.
能够看到,” 坏字符规定 ” 只能移 3 位,” 好后缀规定 ” 能够移 6 位。所以,Boyer-Moore 算法的根本思维是,每次后移这两个规定之中的较大值。
更奇妙的是,这两个规定的挪动位数,只与搜索词无关,与原字符串无关。因而,能够事后计算生成《坏字符规定表》和《好后缀规定表》。应用时,只有查表比拟一下就能够了。
13.
持续从尾部开始比拟,”P” 与 ”E” 不匹配,因而 ”P” 是 ” 坏字符 ”。依据 ” 坏字符规定 ”,后移 6 – 4 = 2 位。
14.
从尾部开始逐位比拟,发现全副匹配,于是搜寻完结。如果还要持续查找(即找出全副匹配),则依据 ” 好后缀规定 ”,后移 6 – 0 = 6 位,即头部的 ”E” 移到尾部的 ”E” 的地位。
(完)