乐趣区

关于后端:综合笔试题难度-355常见序列-DP-题目及其优化思路

题目形容

这是 LeetCode 上的 472. 连接词 ,难度为 艰难

Tag :「字符串哈希」、「序列 DP」

给你一个 不含反复 单词的字符串数组 words,请你找出并返回 words 中的所有 连接词。

连接词 定义为:一个齐全由给定数组中的至多两个较短单词组成的字符串。

示例 1:

输出:words = ["cat","cats","catsdogcats","dog","dogcatsdog","hippopotamuses","rat","ratcatdogcat"]

输入:["catsdogcats","dogcatsdog","ratcatdogcat"]

解释:"catsdogcats" 由 "cats", "dog" 和 "cats" 组成; 
     "dogcatsdog" 由 "dog", "cats" 和 "dog" 组成; 
     "ratcatdogcat" 由 "rat", "cat", "dog" 和 "cat" 组成。

示例 2:

输出:words = ["cat","dog","catdog"]

输入:["catdog"]

提醒:

  • $1 <= words.length <= 10^4$
  • $0 <= words[i].length <= 1000$
  • $words[i]$ 仅由小写字母组成
  • $0 <= sum(words[i].length) <= 10^5$

序列 DP + 字符串哈希

给定数组 $words$,先思考如何判断某个 $s = words[i]$ 是否为「连接词」。

为了不便,咱们称组成 s 的每个连贯局部为 item

举个 🌰,例如 s = abc,其可能的 item 组合为 abc

判断单个字符串是否为连接词可应用动静布局求解:定义 $f[i]$ 为思考 s 的前 $i$ 个字符(令下标从 $1$ 开始),可能切分出的最大 item 数的个数。

这里之所以采纳「记录 $f[i]$ 为最大宰割 item 数(int 类型动规数组)」,而不是「记录 $f[i]$ 为是否可由多个 item 组成(bool 类型动规数组)」,是因为每个 $s = words[i]$ 至多可由本身组成,采纳 bool 记录状态的话,最终 $f[n]$ 必然为 True,须要额定解决最初一个状态,罗唆记录最大宰割数量好了。此时如果 s 为「连接词」必然有 $f[n] > 1$。

不失一般性的思考 $f[i]$ 该如何转移:假如 $f[i]$ 可由 $f[j]$ 转移而来(其中 $j < i$),那么可能转移的充要条件为 $f[j] != 0$ 且子串 $s[(j + 1)..i]$ 在 $words$ 呈现过

其中枚举 $i$ 和 $j$ 的复杂度曾经去到 $O(n^2)$ 了,如果惯例通过 HashMap 等数据结构判断某个字符串是否存在,执行哈希函数时须要对字符进行遍历,整体复杂度去到了 $O(n^3)$,会 TLE

咱们通过「字符串哈希」形式来优化判断某个子串是否存在于 $words$ 中。

具体的,在判断每个 $s = words[i]$ 是否为为连接词前,先对 $words$ 进行遍历,预处理每个 $words[i]$ 的哈希值,并存入 HashSet 中,这样咱们将「判断某个子串是否存在于 $words$」的问题转化为「判断某个数值是否存在于 Set 当中」。

又因为 咱们在计算某个子串 s 的哈希值时,是从返回后处理每一位的 $s[i]$,因而在转移 $f[i]$ 时,咱们冀望可能从前往后解决子串,这是惯例的从 $[0, i – 1]$ 范畴内找可转移点 $f[j]$ 无奈做到的

所以 咱们调整转移逻辑为:从 $f[i]$ 登程,枚举范畴 $[i + 1, n]$,找到可由 $f[i]$ 所能更新的状态 $f[j]$,并尝试应用 $f[i]$ 来更新 $f[j]$。转移方程为:

$$
f[j] = \max(f[j], f[i] + 1)
$$

当然,可能转移的前提条件为 $f[i]$ 为有效值,且子串 $s[(i + 1), j]$ 在 $words$ 呈现过。

一些细节:为了不便,咱们定义 $f[i] = -1$ 为有效状态;
另外因为字符串哈希会产生哈希碰撞,这里在计算哈希值的时候,批改了一下哈希计算形式(额定减少了一个 OFFSET),过后的目标是想在电脑没电前 AC,而另一个更加稳当的形式是应用双哈希,或是罗唆记录某个哈希值对应了哪些字符串。

代码:

class Solution {Set<Long> set = new HashSet<>();
    int P = 131, OFFSET = 128;
    public List<String> findAllConcatenatedWordsInADict(String[] words) {for (String s : words) {
            long hash = 0;
            for (char c : s.toCharArray()) hash = hash * P + (c - 'a') + OFFSET;
            set.add(hash);
        }
        List<String> ans = new ArrayList<>();
        for (String s : words) {if (check(s)) ans.add(s);
        }
        return ans;
    }
    boolean check(String s) {int n = s.length();
        int[] f = new int[n + 1];
        Arrays.fill(f, -1);
        f[0] = 0;
        for (int i = 0; i <= n; i++) {if (f[i] == -1) continue;
            long cur = 0;
            for (int j = i + 1; j <= n; j++) {cur = cur * P + (s.charAt(j - 1) - 'a') + OFFSET;
                if (set.contains(cur)) f[j] = Math.max(f[j], f[i] + 1);
            }
            if (f[n] > 1) return true;
        }
        return false;
    }
}
  • 工夫复杂度:令 $n$ 为 $words$ 数组长度,$N = \sum_{i = 0}^{n – 1}words[i].length$,依据数据范畴 $N$ 最大为 $1e5$。预处理出 Set 的复杂度为 $O(N)$;会对所有 $words[i]$ 执行 check 操作,复杂度为 $O((words[i].length)^2)$,总的计算量最大值为 $O(N^2)$,因为存在剪枝,实际上达不到该计算量
  • 空间复杂度:$O(n + \max(words[i].length))$

最初

这是咱们「刷穿 LeetCode」系列文章的第 No.472 篇,系列开始于 2021/01/01,截止于起始日 LeetCode 上共有 1916 道题目,局部是有锁题,咱们将先把所有不带锁的题目刷完。

在这个系列文章外面,除了解说解题思路以外,还会尽可能给出最为简洁的代码。如果波及通解还会相应的代码模板。

为了不便各位同学可能电脑上进行调试和提交代码,我建设了相干的仓库:https://github.com/SharingSou…。

在仓库地址里,你能够看到系列文章的题解链接、系列文章的相应代码、LeetCode 原题链接和其余优选题解。

更多更全更热门的「口试 / 面试」相干材料可拜访排版精美的 合集新基地 🎉🎉

本文由 mdnice 多平台公布

退出移动版