关于算法:算法1字符串匹配的BoyerMoore算法

算法(1)-字符串匹配的Boyer-Moore算法

然而,它并不是效率最高的算法,理论采纳并不多。各种文本编辑器的”查找”性能(Ctrl+F),大多采纳Boyer-Moore算法。

【腾讯云】云产品限时秒杀,爆款1核2G云服务器,首年99元

Boyer-Moore算法不仅效率高,而且构思奇妙,容易了解。1977年,德克萨斯大学的Robert S. Boyer传授和J Strother Moore传授创造了这种算法。

上面,我依据Moore传授本人的例子来解释这种算法。

1.

假设字符串为”HERE IS A SIMPLE EXAMPLE”,搜索词为”EXAMPLE”。

2.

首先,”字符串”与”搜索词”头部对齐,从尾部开始比拟。

这是一个很聪慧的想法,因为如果尾部字符不匹配,那么只有一次比拟,就能够晓得前7个字符(整体上)必定不是要找的后果。

咱们看到,”S”与”E”不匹配。这时,“S”就被称为”坏字符”(bad character),即不匹配的字符。咱们还发现,”S”不蕴含在搜索词”EXAMPLE”之中,这意味着能够把搜索词间接移到”S”的后一位。

3.

仍然从尾部开始比拟,发现”P”与”E”不匹配,所以”P”是”坏字符”。然而,”P”蕴含在搜索词”EXAMPLE”之中。所以,将搜索词后移两位,两个”P”对齐。

4.

咱们由此总结出“坏字符规定”

  后移位数 = 坏字符的地位 – 搜索词中的上一次呈现地位

如果”坏字符”不蕴含在搜索词之中,则上一次呈现地位为 -1。

以”P”为例,它作为”坏字符”,呈现在搜索词的第6位(从0开始编号),在搜索词中的上一次呈现地位为4,所以后移 6 – 4 = 2位。再以后面第二步的”S”为例,它呈现在第6位,上一次呈现地位是 -1(即未呈现),则整个搜索词后移 6 – (-1) = 7位。

5.

仍然从尾部开始比拟,”E”与”E”匹配。

6.

比拟后面一位,”LE”与”LE”匹配。

7.

比拟后面一位,”PLE”与”PLE”匹配。

8.

比拟后面一位,”MPLE”与”MPLE”匹配。咱们把这种状况称为”好后缀”(good suffix),即所有尾部匹配的字符串。留神,”MPLE”、”PLE”、”LE”、”E”都是好后缀。

9.

比拟前一位,发现”I”与”A”不匹配。所以,”I”是”坏字符”。

10.

依据”坏字符规定”,此时搜索词应该后移 2 – (-1)= 3 位。问题是,此时有没有更好的移法?

11.

咱们晓得,此时存在”好后缀”。所以,能够采纳“好后缀规定”

  后移位数 = 好后缀的地位 – 搜索词中的上一次呈现地位

举例来说,如果字符串”ABCDAB”的后一个”AB”是”好后缀”。那么它的地位是5(从0开始计算,取最初的”B”的值),在”搜索词中的上一次呈现地位”是1(第一个”B”的地位),所以后移 5 – 1 = 4位,前一个”AB”移到后一个”AB”的地位。

再举一个例子,如果字符串”ABCDEF”的”EF”是好后缀,则”EF”的地位是5 ,上一次呈现的地位是 -1(即未呈现),所以后移 5 – (-1) = 6位,即整个字符串移到”F”的后一位。

这个规定有三个留神点:

  (1)”好后缀”的地位以最初一个字符为准。假设”ABCDEF”的”EF”是好后缀,则它的地位以”F”为准,即5(从0开始计算)。

  (2)如果”好后缀”在搜索词中只呈现一次,则它的上一次呈现地位为 -1。比方,”EF”在”ABCDEF”之中只呈现一次,则它的上一次呈现地位为-1(即未呈现)。

  (3)如果”好后缀”有多个,则除了最长的那个”好后缀”,其余”好后缀”的上一次呈现地位必须在头部。比方,假设”BABCDAB”的”好后缀”是”DAB”、”AB”、”B”,请问这时”好后缀”的上一次呈现地位是什么?答复是,此时采纳的好后缀是”B”,它的上一次呈现地位是头部,即第0位。这个规定也能够这样表白:如果最长的那个”好后缀”只呈现一次,则能够把搜索词改写成如下模式进行地位计算”(DA)BABCDAB”,即虚构退出最后面的”DA”。

回到上文的这个例子。此时,所有的”好后缀”(MPLE、PLE、LE、E)之中,只有”E”在”EXAMPLE”还呈现在头部,所以后移 6 – 0 = 6位。

12.

能够看到,”坏字符规定”只能移3位,”好后缀规定”能够移6位。所以,Boyer-Moore算法的根本思维是,每次后移这两个规定之中的较大值。

更奇妙的是,这两个规定的挪动位数,只与搜索词无关,与原字符串无关。因而,能够事后计算生成《坏字符规定表》和《好后缀规定表》。应用时,只有查表比拟一下就能够了。

13.

持续从尾部开始比拟,”P”与”E”不匹配,因而”P”是”坏字符”。依据”坏字符规定”,后移 6 – 4 = 2位。

14.

从尾部开始逐位比拟,发现全副匹配,于是搜寻完结。如果还要持续查找(即找出全副匹配),则依据”好后缀规定”,后移 6 – 0 = 6位,即头部的”E”移到尾部的”E”的地位。

(完)

阿里云限时活动-2核2G-5M带宽-40-100G SSD服务器,特惠价86元/年(原价724元/年,限时99元续购三次),速抢

本文由乐趣区整理发布,转载请注明出处,谢谢。

You may also like...

发表评论

邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据