算法(1)-字符串匹配的Boyer-Moore算法
然而,它并不是效率最高的算法,理论采纳并不多。各种文本编辑器的"查找"性能(Ctrl+F),大多采纳Boyer-Moore算法。
Boyer-Moore算法不仅效率高,而且构思奇妙,容易了解。1977年,德克萨斯大学的Robert S. Boyer传授和J Strother Moore传授创造了这种算法。
上面,我依据Moore传授本人的例子来解释这种算法。
1.
假设字符串为"HERE IS A SIMPLE EXAMPLE",搜索词为"EXAMPLE"。
2.
首先,"字符串"与"搜索词"头部对齐,从尾部开始比拟。
这是一个很聪慧的想法,因为如果尾部字符不匹配,那么只有一次比拟,就能够晓得前7个字符(整体上)必定不是要找的后果。
咱们看到,"S"与"E"不匹配。这时,"S"就被称为"坏字符"(bad character),即不匹配的字符。咱们还发现,"S"不蕴含在搜索词"EXAMPLE"之中,这意味着能够把搜索词间接移到"S"的后一位。
3.
仍然从尾部开始比拟,发现"P"与"E"不匹配,所以"P"是"坏字符"。然而,"P"蕴含在搜索词"EXAMPLE"之中。所以,将搜索词后移两位,两个"P"对齐。
4.
咱们由此总结出"坏字符规定":
后移位数 = 坏字符的地位 - 搜索词中的上一次呈现地位
如果"坏字符"不蕴含在搜索词之中,则上一次呈现地位为 -1。
以"P"为例,它作为"坏字符",呈现在搜索词的第6位(从0开始编号),在搜索词中的上一次呈现地位为4,所以后移 6 - 4 = 2位。再以后面第二步的"S"为例,它呈现在第6位,上一次呈现地位是 -1(即未呈现),则整个搜索词后移 6 - (-1) = 7位。
5.
仍然从尾部开始比拟,"E"与"E"匹配。
6.
比拟后面一位,"LE"与"LE"匹配。
7.
比拟后面一位,"PLE"与"PLE"匹配。
8.
比拟后面一位,"MPLE"与"MPLE"匹配。咱们把这种状况称为"好后缀"(good suffix),即所有尾部匹配的字符串。留神,"MPLE"、"PLE"、"LE"、"E"都是好后缀。
9.
比拟前一位,发现"I"与"A"不匹配。所以,"I"是"坏字符"。
10.
依据"坏字符规定",此时搜索词应该后移 2 - (-1)= 3 位。问题是,此时有没有更好的移法?
11.
咱们晓得,此时存在"好后缀"。所以,能够采纳"好后缀规定":
后移位数 = 好后缀的地位 - 搜索词中的上一次呈现地位
举例来说,如果字符串"ABCDAB"的后一个"AB"是"好后缀"。那么它的地位是5(从0开始计算,取最初的"B"的值),在"搜索词中的上一次呈现地位"是1(第一个"B"的地位),所以后移 5 - 1 = 4位,前一个"AB"移到后一个"AB"的地位。
再举一个例子,如果字符串"ABCDEF"的"EF"是好后缀,则"EF"的地位是5 ,上一次呈现的地位是 -1(即未呈现),所以后移 5 - (-1) = 6位,即整个字符串移到"F"的后一位。
这个规定有三个留神点:
(1)"好后缀"的地位以最初一个字符为准。假设"ABCDEF"的"EF"是好后缀,则它的地位以"F"为准,即5(从0开始计算)。(2)如果"好后缀"在搜索词中只呈现一次,则它的上一次呈现地位为 -1。比方,"EF"在"ABCDEF"之中只呈现一次,则它的上一次呈现地位为-1(即未呈现)。
(3)如果"好后缀"有多个,则除了最长的那个"好后缀",其余"好后缀"的上一次呈现地位必须在头部。比方,假设"BABCDAB"的"好后缀"是"DAB"、"AB"、"B",请问这时"好后缀"的上一次呈现地位是什么?答复是,此时采纳的好后缀是"B",它的上一次呈现地位是头部,即第0位。这个规定也能够这样表白:如果最长的那个"好后缀"只呈现一次,则能够把搜索词改写成如下模式进行地位计算"(DA)BABCDAB",即虚构退出最后面的"DA"。
回到上文的这个例子。此时,所有的"好后缀"(MPLE、PLE、LE、E)之中,只有"E"在"EXAMPLE"还呈现在头部,所以后移 6 - 0 = 6位。
12.
能够看到,"坏字符规定"只能移3位,"好后缀规定"能够移6位。所以,Boyer-Moore算法的根本思维是,每次后移这两个规定之中的较大值。
更奇妙的是,这两个规定的挪动位数,只与搜索词无关,与原字符串无关。因而,能够事后计算生成《坏字符规定表》和《好后缀规定表》。应用时,只有查表比拟一下就能够了。
13.
持续从尾部开始比拟,"P"与"E"不匹配,因而"P"是"坏字符"。依据"坏字符规定",后移 6 - 4 = 2位。
14.
从尾部开始逐位比拟,发现全副匹配,于是搜寻完结。如果还要持续查找(即找出全副匹配),则依据"好后缀规定",后移 6 - 0 = 6位,即头部的"E"移到尾部的"E"的地位。
(完)