关于算法:算法1字符串匹配的BoyerMoore算法

47次阅读

共计 1960 个字符，预计需要花费 5 分钟才能阅读完成。

然而，它并不是效率最高的算法，理论采纳并不多。各种文本编辑器的 ” 查找 ” 性能（Ctrl+F），大多采纳 Boyer-Moore 算法。

Boyer-Moore 算法不仅效率高，而且构思奇妙，容易了解。1977 年，德克萨斯大学的 Robert S. Boyer 传授和 J Strother Moore 传授创造了这种算法。

上面，我依据 Moore 传授本人的例子来解释这种算法。

1.

假设字符串为 ”HERE IS A SIMPLE EXAMPLE”，搜索词为 ”EXAMPLE”。

2.

首先，” 字符串 ” 与 ” 搜索词 ” 头部对齐，从尾部开始比拟。

这是一个很聪慧的想法，因为如果尾部字符不匹配，那么只有一次比拟，就能够晓得前 7 个字符（整体上）必定不是要找的后果。

咱们看到，”S” 与 ”E” 不匹配。这时，“S” 就被称为 ” 坏字符 ”（bad character），即不匹配的字符。 咱们还发现，”S” 不蕴含在搜索词 ”EXAMPLE” 之中，这意味着能够把搜索词间接移到 ”S” 的后一位。

3.

仍然从尾部开始比拟，发现 ”P” 与 ”E” 不匹配，所以 ”P” 是 ” 坏字符 ”。然而，”P” 蕴含在搜索词 ”EXAMPLE” 之中。所以，将搜索词后移两位，两个 ”P” 对齐。

4.

咱们由此总结出 “ 坏字符规定 ”：

后移位数 = 坏字符的地位 – 搜索词中的上一次呈现地位

如果 ” 坏字符 ” 不蕴含在搜索词之中，则上一次呈现地位为 -1。

以 ”P” 为例，它作为 ” 坏字符 ”，呈现在搜索词的第 6 位（从 0 开始编号），在搜索词中的上一次呈现地位为 4，所以后移 6 – 4 = 2 位。再以后面第二步的 ”S” 为例，它呈现在第 6 位，上一次呈现地位是 -1（即未呈现），则整个搜索词后移 6 – (-1) = 7 位。

5.

仍然从尾部开始比拟，”E” 与 ”E” 匹配。

6.

比拟后面一位，”LE” 与 ”LE” 匹配。

7.

比拟后面一位，”PLE” 与 ”PLE” 匹配。

8.

比拟后面一位，”MPLE” 与 ”MPLE” 匹配。 咱们把这种状况称为 ” 好后缀 ”（good suffix），即所有尾部匹配的字符串。 留神，”MPLE”、”PLE”、”LE”、”E” 都是好后缀。

9.

比拟前一位，发现 ”I” 与 ”A” 不匹配。所以，”I” 是 ” 坏字符 ”。

10.

依据 ” 坏字符规定 ”，此时搜索词应该后移 2 –（-1）= 3 位。问题是，此时有没有更好的移法？

11.

咱们晓得，此时存在 ” 好后缀 ”。所以，能够采纳 “ 好后缀规定 ”：

后移位数 = 好后缀的地位 – 搜索词中的上一次呈现地位

举例来说，如果字符串 ”ABCDAB” 的后一个 ”AB” 是 ” 好后缀 ”。那么它的地位是 5（从 0 开始计算，取最初的 ”B” 的值），在 ” 搜索词中的上一次呈现地位 ” 是 1（第一个 ”B” 的地位），所以后移 5 – 1 = 4 位，前一个 ”AB” 移到后一个 ”AB” 的地位。

再举一个例子，如果字符串 ”ABCDEF” 的 ”EF” 是好后缀，则 ”EF” 的地位是 5，上一次呈现的地位是 -1（即未呈现），所以后移 5 – (-1) = 6 位，即整个字符串移到 ”F” 的后一位。

这个规定有三个留神点：

（1）” 好后缀 ” 的地位以最初一个字符为准。假设 ”ABCDEF” 的 ”EF” 是好后缀，则它的地位以 ”F” 为准，即 5（从 0 开始计算）。
（2）如果 ” 好后缀 ” 在搜索词中只呈现一次，则它的上一次呈现地位为 -1。比方，”EF” 在 ”ABCDEF” 之中只呈现一次，则它的上一次呈现地位为 -1（即未呈现）。
（3）如果 ” 好后缀 ” 有多个，则除了最长的那个 ” 好后缀 ”，其余 ” 好后缀 ” 的上一次呈现地位必须在头部。比方，假设 ”BABCDAB” 的 ” 好后缀 ” 是 ”DAB”、”AB”、”B”，请问这时 ” 好后缀 ” 的上一次呈现地位是什么？答复是，此时采纳的好后缀是 ”B”，它的上一次呈现地位是头部，即第 0 位。这个规定也能够这样表白：如果最长的那个 ” 好后缀 ” 只呈现一次，则能够把搜索词改写成如下模式进行地位计算 ”(DA)BABCDAB”，即虚构退出最后面的 ”DA”。

回到上文的这个例子。此时，所有的 ” 好后缀 ”（MPLE、PLE、LE、E）之中，只有 ”E” 在 ”EXAMPLE” 还呈现在头部，所以后移 6 – 0 = 6 位。

12.

能够看到，” 坏字符规定 ” 只能移 3 位，” 好后缀规定 ” 能够移 6 位。所以，Boyer-Moore 算法的根本思维是，每次后移这两个规定之中的较大值。

更奇妙的是，这两个规定的挪动位数，只与搜索词无关，与原字符串无关。因而，能够事后计算生成《坏字符规定表》和《好后缀规定表》。应用时，只有查表比拟一下就能够了。

13.

持续从尾部开始比拟，”P” 与 ”E” 不匹配，因而 ”P” 是 ” 坏字符 ”。依据 ” 坏字符规定 ”，后移 6 – 4 = 2 位。

14.

从尾部开始逐位比拟，发现全副匹配，于是搜寻完结。如果还要持续查找（即找出全副匹配），则依据 ” 好后缀规定 ”，后移 6 – 0 = 6 位，即头部的 ”E” 移到尾部的 ”E” 的地位。

（完）

正文完

算法

发表至：算法

2021-02-23

0

关于算法:小白学排序-十大经典排序算法动图

关于算法:谁说算法工程师不会写代码

关于算法:实时渲染实时离线云渲染混合渲染的区别

关于算法:R语言-PCA主成分分析CA对应分析夫妻职业差异和马赛克图可视化

关于工具:Visual-Studio-Code

关于算法:算法1字符串匹配的BoyerMoore算法

算法 (1)- 字符串匹配的 Boyer-Moore 算法

Just My Socks（注册教程内含优惠码）

关于算法:算法1字符串匹配的BoyerMoore算法

算法 (1)- 字符串匹配的 Boyer-Moore 算法

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）