关于后端:1668-最大重复子字符串-运用字符串哈希优化序列-DP总结两类-DP-区别

题目形容

这是 LeetCode 上的 1668. 最大重复子字符串 ，难度为简略。

Tag : 「动静布局」、「序列 DP」、「字符串哈希」

给你一个字符串 sequence，如果字符串 word 间断反复 k 次造成的字符串是 sequence 的一个子字符串，那么单词 word 的反复值为 k 。

单词 word 的最大反复值是单词 word 在 sequence 中最大的反复值。如果 word 不是 sequence 的子串，那么反复值 k 为 0 。

给你一个字符串 sequence 和 word ，请你返回最大反复值 k 。

示例 1：

输出：sequence = "ababc", word = "ab"

输入：2

解释："abab" 是 "ababc" 的子字符串。

示例 2：

输出：sequence = "ababc", word = "ba"

输入：1

解释："ba" 是 "ababc" 的子字符串，但 "baba" 不是 "ababc" 的子字符串。

示例 3：

输出：sequence = "ababc", word = "ac"

输入：0

解释："ac" 不是 "ababc" 的子字符串。

提醒：

$1 <= sequence.length <= 100$
$1 <= word.length <= 100$
sequence 和 word 都只蕴含小写英文字母。

序列 DP

为了不便，咱们记 sequence 为 ss，记 word 为 pp，将两者长度别离记为 n 和 m。

同时咱们调整「字符串」以及「将要用到的动规数组」的下标从 $1$ 开始。

这是一道入门级的「序列 DP」使用题，容易想到 定义 $f[i]$ 为了思考以 ss[i] 结尾时的最大反复值。

不失一般性思考 $f[i]$ 该如何转移：因为 pp 的长度已知，每次转移 $f[i]$ 时咱们能够从 ss 中截取 以 $ss[i]$ 为结尾，长度为 $m$ 的后缀字符串 sub 并与 pp 匹配，若两者相等，阐明 sub 奉献了大小为 $1$ 的反复度，同时该反复度可累加在 $f[i – m]$ 上（好好回忆咱们的状态定义），即有状态转移方程：$f[i] = f[i – m] + 1$。

最终所有 $f[i]$ 的最大值即为答案。

Java 代码：

class Solution {
    public int maxRepeating(String ss, String pp) {
        int n = ss.length(), m = pp.length(), ans = 0;
        int[] f = new int[n + 10];
        for (int i = 1; i <= n; i++) {
            if (i - m < 0) continue;
            if (ss.substring(i - m, i).equals(pp)) f[i] = f[i - m] + 1;
            ans = Math.max(ans, f[i]);
        }
        return ans;
    }
}

TypeScript 代码：

function maxRepeating(ss: string, pp: string): number {
    let n = ss.length, m = pp.length, ans = 0
    const f = new Array<number>(n + 10).fill(0)
    for (let i = 1; i <= n; i++) {
        if (i - m < 0) continue
        if (ss.substr(i - m, i) == pp) f[i] = f[i - m] + 1
        ans = Math.max(ans, f[i])
    }
    return ans
}

Python 代码：

class Solution:
    def maxRepeating(self, ss: str, pp: str) -> int:
        n, m, ans = len(ss), len(pp), 0
        f = [0] * (n + 10)
        for i in range(1, n + 1):
            if i - m < 0:
                continue
            if ss[i - m:i] == pp:
                f[i] = f[i - m] + 1
            ans = max(ans, f[i])
        return ans

工夫复杂度：$O(n \times m)$
空间复杂度：$O(n)$

字符串哈希

解法一的转移瓶颈在于：每次须要破费 $O(m)$ 的复杂度来生成子串，并进行字符串比拟。

该过程可用「字符串哈希」进行优化：将 ss 和 pp 进行拼接失去残缺字符串，并计算残缺字符串的哈希数组和次方数组。随后从前往后查看 ss，若「某个以 $ss[i]$ 结尾长度为 m 的后缀字符串哈希值」与「 pp 字符串的哈希值」相等，阐明找到了前驱状态值 $f[i – m]$，可进行转移。

咱们通过 $O(n + m)$ 复杂度预处理了字符串哈希，将转移过程中「复杂度为 $O(m)$ 的子串截取与字符串比拟」替换成了「复杂度为 $O(1)$ 的数值比照」，整体复杂度从 $O(n \times m)$ 降落到 $O(n + m)$。

不理解「字符串哈希」的同学可见前置 🧀 : 字符串哈希入门。外面详解字符串哈希基本原理以及哈希抵触简略解决形式

Java 代码：

class Solution {
    public int maxRepeating(String ss, String pp) {
        int n = ss.length(), m = pp.length(), ans = 0;
        int[] f = new int[n + 10];

        String s = ss + pp;
        int P = 1313131, N = s.length();
        long[] h = new long[N + 10], p = new long[N + 10];
        p[0] = 1;
        for (int i = 1; i <= N; i++) {
            h[i] = h[i - 1] * P + s.charAt(i - 1);
            p[i] = p[i - 1] * P;
        }
        long phash = h[N] - h[N - m] * p[m];
        
        for (int i = 1; i <= n; i++) {
            if (i - m < 0) continue;
            long cur = h[i] - h[i - m] * p[m];
            if (cur == phash) f[i] = f[i - m] + 1;
            ans = Math.max(ans, f[i]);
        }
        return ans;
    }
}

Python 代码：

class Solution:
    def maxRepeating(self, ss: str, pp: str) -> int:
        n, m, ans = len(ss), len(pp), 0
        f = [0] * (n + 10)

        s = ss + pp
        P, N, MOD = 131, len(s), 987654321
        h, p = [0] * (N + 10), [0] * (N + 10)
        p[0] = 1
        for i in range(1, N + 1):
            h[i] = (h[i - 1] * P + ord(s[i - 1])) % MOD
            p[i] = (p[i - 1] * P) % MOD
        phash = (h[N] - h[N - m] * p[m]) % MOD

        for i in range(1, n + 1):
            if i - m < 0:
                continue
            cur = (h[i] - h[i - m] * p[m]) % MOD
            if cur == phash:
                f[i] = f[i - m] + 1
            ans = max(ans, f[i])
        return ans

工夫复杂度：$O(n + m)$
空间复杂度：$O(n + m)$

总结

这里简略说下「线性 DP」和「序列 DP」的区别。

线性 DP 通常强调「状态转移所依赖的前驱状态」是由给定数组所提供的，即拓扑序是由原数组间接给出。更大白话来说就是通常有 $f[i][…]$ 依赖于 $f[i – 1][…]$。

这就限定了线性 DP 的复杂度是简略由「状态数量（或者说是维度数）」所决定。

序列 DP 通常须要联合题意来寻找前驱状态，即须要本身寻找拓扑序关系（例如本题，须要本人联合题意来找到可转移的前驱状态 $f[i – m]$）。

这就限定了序列 DP 的复杂度是由「状态数 + 找前驱」的复杂度所独特决定。也间接导致了序列 DP 有很多玩法，往往可能联合其余知识点出题，来优化找前驱这一操作，通常是利用某些性质，或是利用数据结构进行优化。

最初

这是咱们「刷穿 LeetCode」系列文章的第 No.1668 篇，系列开始于 2021/01/01，截止于起始日 LeetCode 上共有 1916 道题目，局部是有锁题，咱们将先把所有不带锁的题目刷完。

在这个系列文章外面，除了解说解题思路以外，还会尽可能给出最为简洁的代码。如果波及通解还会相应的代码模板。

为了不便各位同学可能电脑上进行调试和提交代码，我建设了相干的仓库：https://github.com/SharingSou… 。

在仓库地址里，你能够看到系列文章的题解链接、系列文章的相应代码、LeetCode 原题链接和其余优选题解。

更多更全更热门的「口试/面试」相干材料可拜访排版精美的合集新基地 🎉🎉

本文由mdnice多平台公布

关于后端:1668-最大重复子字符串-运用字符串哈希优化序列-DP总结两类-DP-区别

题目形容

序列 DP

字符串哈希

总结

最初

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于后端:1668-最大重复子字符串-运用字符串哈希优化序列-DP总结两类-DP-区别

题目形容

序列 DP

字符串哈希

总结

最初

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复