关于后端:1668-最大重复子字符串-运用字符串哈希优化序列-DP总结两类-DP-区别

4次阅读

共计 3336 个字符,预计需要花费 9 分钟才能阅读完成。

题目形容

这是 LeetCode 上的 1668. 最大重复子字符串 ,难度为 简略

Tag :「动静布局」、「序列 DP」、「字符串哈希」

给你一个字符串 sequence,如果字符串 word 间断反复 k 次造成的字符串是 sequence 的一个子字符串,那么单词 word 的 反复值为 k

单词 word 的 最大反复值 是单词 word 在 sequence 中最大的反复值。如果 word 不是 sequence 的子串,那么反复值 k 为 0

给你一个字符串 sequence 和 word,请你返回 最大反复值 k

示例 1:

输出:sequence = "ababc", word = "ab"

输入:2

解释:"abab" 是 "ababc" 的子字符串。

示例 2:

输出:sequence = "ababc", word = "ba"

输入:1

解释:"ba" 是 "ababc" 的子字符串,但 "baba" 不是 "ababc" 的子字符串。

示例 3:

输出:sequence = "ababc", word = "ac"

输入:0

解释:"ac" 不是 "ababc" 的子字符串。

提醒:

  • $1 <= sequence.length <= 100$
  • $1 <= word.length <= 100$
  • sequence 和 word 都只蕴含小写英文字母。

序列 DP

为了不便,咱们记 sequencess,记 wordpp,将两者长度别离记为 nm

同时咱们调整「字符串」以及「将要用到的动规数组」的下标从 $1$ 开始。

这是一道入门级的「序列 DP」使用题,容易想到 定义 $f[i]$ 为了思考以 ss[i] 结尾时的最大反复值

不失一般性思考 $f[i]$ 该如何转移:因为 pp 的长度已知,每次转移 $f[i]$ 时咱们能够从 ss 中截取 以 $ss[i]$ 为结尾,长度为 $m$ 的后缀字符串 sub 并与 pp 匹配,若两者相等,阐明 sub 奉献了大小为 $1$ 的反复度,同时该反复度可累加在 $f[i – m]$ 上(好好回忆咱们的状态定义),即有状态转移方程:$f[i] = f[i – m] + 1$。

最终所有 $f[i]$ 的最大值即为答案。

Java 代码:

class Solution {public int maxRepeating(String ss, String pp) {int n = ss.length(), m = pp.length(), ans = 0;
        int[] f = new int[n + 10];
        for (int i = 1; i <= n; i++) {if (i - m < 0) continue;
            if (ss.substring(i - m, i).equals(pp)) f[i] = f[i - m] + 1;
            ans = Math.max(ans, f[i]);
        }
        return ans;
    }
}

TypeScript 代码:

function maxRepeating(ss: string, pp: string): number {
    let n = ss.length, m = pp.length, ans = 0
    const f = new Array<number>(n + 10).fill(0)
    for (let i = 1; i <= n; i++) {if (i - m < 0) continue
        if (ss.substr(i - m, i) == pp) f[i] = f[i - m] + 1
        ans = Math.max(ans, f[i])
    }
    return ans
}

Python 代码:

class Solution:
    def maxRepeating(self, ss: str, pp: str) -> int:
        n, m, ans = len(ss), len(pp), 0
        f = [0] * (n + 10)
        for i in range(1, n + 1):
            if i - m < 0:
                continue
            if ss[i - m:i] == pp:
                f[i] = f[i - m] + 1
            ans = max(ans, f[i])
        return ans
  • 工夫复杂度:$O(n \times m)$
  • 空间复杂度:$O(n)$

字符串哈希

解法一的转移瓶颈在于:每次须要破费 $O(m)$ 的复杂度来生成子串,并进行字符串比拟。

该过程可用「字符串哈希」进行优化:将 sspp 进行拼接失去残缺字符串,并计算残缺字符串的哈希数组和次方数组。随后从前往后查看 ss,若「某个以 $ss[i]$ 结尾长度为 m 的后缀字符串哈希值」与「pp 字符串的哈希值」相等,阐明找到了前驱状态值 $f[i – m]$,可进行转移。

咱们通过 $O(n + m)$ 复杂度预处理了字符串哈希,将转移过程中「复杂度为 $O(m)$ 的子串截取与字符串比拟」替换成了「复杂度为 $O(1)$ 的数值比照」,整体复杂度从 $O(n \times m)$ 降落到 $O(n + m)$。

不理解「字符串哈希」的同学可见前置 🧀 : 字符串哈希入门。外面详解字符串哈希基本原理以及哈希抵触简略解决形式

Java 代码:

class Solution {public int maxRepeating(String ss, String pp) {int n = ss.length(), m = pp.length(), ans = 0;
        int[] f = new int[n + 10];

        String s = ss + pp;
        int P = 1313131, N = s.length();
        long[] h = new long[N + 10], p = new long[N + 10];
        p[0] = 1;
        for (int i = 1; i <= N; i++) {h[i] = h[i - 1] * P + s.charAt(i - 1);
            p[i] = p[i - 1] * P;
        }
        long phash = h[N] - h[N - m] * p[m];
        
        for (int i = 1; i <= n; i++) {if (i - m < 0) continue;
            long cur = h[i] - h[i - m] * p[m];
            if (cur == phash) f[i] = f[i - m] + 1;
            ans = Math.max(ans, f[i]);
        }
        return ans;
    }
}

Python 代码:

class Solution:
    def maxRepeating(self, ss: str, pp: str) -> int:
        n, m, ans = len(ss), len(pp), 0
        f = [0] * (n + 10)

        s = ss + pp
        P, N, MOD = 131, len(s), 987654321
        h, p = [0] * (N + 10), [0] * (N + 10)
        p[0] = 1
        for i in range(1, N + 1):
            h[i] = (h[i - 1] * P + ord(s[i - 1])) % MOD
            p[i] = (p[i - 1] * P) % MOD
        phash = (h[N] - h[N - m] * p[m]) % MOD

        for i in range(1, n + 1):
            if i - m < 0:
                continue
            cur = (h[i] - h[i - m] * p[m]) % MOD
            if cur == phash:
                f[i] = f[i - m] + 1
            ans = max(ans, f[i])
        return ans
  • 工夫复杂度:$O(n + m)$
  • 空间复杂度:$O(n + m)$

总结

这里简略说下「线性 DP」和「序列 DP」的区别。

线性 DP 通常强调「状态转移所依赖的前驱状态」是由给定数组所提供的,即拓扑序是由原数组间接给出。更大白话来说就是通常有 $f[i][…]$ 依赖于 $f[i – 1][…]$。

这就限定了线性 DP 的复杂度是简略由「状态数量(或者说是维度数)」所决定。

序列 DP 通常须要联合题意来寻找前驱状态,即须要本身寻找拓扑序关系(例如本题,须要本人联合题意来找到可转移的前驱状态 $f[i – m]$)。

这就限定了序列 DP 的复杂度是由「状态数 + 找前驱」的复杂度所独特决定。也间接导致了序列 DP 有很多玩法,往往可能联合其余知识点出题,来优化找前驱这一操作,通常是利用某些性质,或是利用数据结构进行优化。

最初

这是咱们「刷穿 LeetCode」系列文章的第 No.1668 篇,系列开始于 2021/01/01,截止于起始日 LeetCode 上共有 1916 道题目,局部是有锁题,咱们将先把所有不带锁的题目刷完。

在这个系列文章外面,除了解说解题思路以外,还会尽可能给出最为简洁的代码。如果波及通解还会相应的代码模板。

为了不便各位同学可能电脑上进行调试和提交代码,我建设了相干的仓库:https://github.com/SharingSou…。

在仓库地址里,你能够看到系列文章的题解链接、系列文章的相应代码、LeetCode 原题链接和其余优选题解。

更多更全更热门的「口试 / 面试」相干材料可拜访排版精美的 合集新基地 🎉🎉

本文由 mdnice 多平台公布

正文完
 0