关于算法:Trie树模板与应用

文章和代码曾经归档至【Github仓库：https://github.com/timerring/algorithms-notes 】或者公众号【AIShareLab】回复 算法笔记 也可获取。

Trie树（字典树）

Trie树是用来疾速存储和查找字符串汇合的数据结构。某个字符串汇合对应的有根树。树的每条边上对应有恰好一个字符，每个顶点代表从根到该节点的门路所对应的字符串（将所有通过的边上的字符按程序连接起来）。利用字符串的公共前缀来缩小查问工夫，最大限度地缩小无谓的字符串比拟，查问效率比哈希树高。

根本思维

存储若干字符串（通常样本中的字符较少），而后依据字符串中字符呈现的先后顺序建设树，把具备雷同前缀的字符串依照其前缀归类在一个分支中，并且须要在字符串的最初一个地位进行标记（表明到此为一个残缺的字符串）。

查找时只须要寻找是否有匹配的序列，并且是否已标记结尾即可。

例题 Trie字符串统计

保护一个字符串汇合，反对两种操作：

I x 向汇合中插入一个字符串 x；
Q x 询问一个字符串在汇合中呈现了多少次。

共有 N 个操作，输出的字符串总长度不超过 $10^5$，字符串仅蕴含小写英文字母。

输出格局

第一行蕴含整数 N，示意操作数。

接下来 N 行，每行蕴含一个操作指令，指令为 I x 或 Q x 中的一种。

输入格局

对于每个询问指令 Q x，都要输入一个整数作为后果，示意 x 在汇合中呈现的次数。

每个后果占一行。

数据范畴

$1≤N≤2∗10^4$

输出样例：

5I abcQ abcQ abI abQ ab

输入样例：

code

#include<iostream>using namespace std;const int N = 100010;// 下标0代表根节点和空节点，cnt用于计数，idx代表以后的节点（和单链表一样）相当于是一个举世无双的递增编号，son[N][26]每个节点最多有26条边（小写英文字母）int son[N][26], cnt[N], idx;char str[N];// 插入void insert(char str[]){    int p = 0;// 根节点    // 遍历字符串，cpp中str最初一位是\0    for(int i = 0; str[i]; i ++)    {        // 映射字母a-z为0-25        int u = str[i] - 'a';        // 若不存在该节点则创立一个        if(!son[p][u]) son[p][u] = ++ idx;        // 走到该子节点        p = son[p][u];    }    cnt[p] ++ ;// 标记该子节点存在的单词个数 记住这里p = son[p][u];}// 查问int query(char str[]){    int p = 0;    for(int i = 0; str[i]; i++)    {        int u = str[i] - 'a';        if(!son[p][u]) return 0;        p = son[p][u];    }        return cnt[p];}int main(){    //ios::sync_with_stdio(false);    //cin.tie(0);    int n;    scanf("%d", &n);    while(n --)    {        char op[2];        scanf("%s%s", op, str);        if(op[0] == 'I') insert(str);        else printf("%d\n", query(str));    }    return 0;}

对于idx的了解

不论是链表，Trie树还是堆，他们的根本单元都是一个个结点连贯形成的，能够成为“链”式构造。这个结点蕴含两个根本的属性：自身的值和指向下一个结点的指针。按情理，应该依照构造体的形式来实现这些数据结构的，然而做算法题个别用数组模仿，次要是因为比拟快。

原来这两个属性都是以构造体的形式分割在一起的，当初如果用数组模仿，如何能力把这两个属性分割起来呢，如何辨别各个结点呢？答案是采纳idx。

idx的操作总是 idx++，这就保障了不同的idx值对应不同的结点，这样就能够利用idx把构造体内两个属性分割在一起了。因而，idx能够了解为结点。

idx相当于一个分配器，如果须要退出新的结点就用++idx调配出一个下标,输出字符串的总长度不超过$10^5$，因而最多会用到$10^5$个idx。

Trie树中有个二维数组 son[N][26]，示意以后结点的儿子，如果没有的话，能够等于++idx。Trie树实质上是一颗多叉树，对于字母而言最多有26个子结点。所以这个数组蕴含了两条信息。比方：son[1][0]=2示意1结点的一个值为a的子结点为结点2;如果son[1][0] = 0，则意味着没有值为a子结点。这里的son[N][26]相当于链表中的ne[N]。当然这里2仅仅是一个节点的编号而已。

参考：https://www.acwing.com/solution/content/5673/

模板总结

int son[N][26], cnt[N], idx;// 0号点既是根节点，又是空节点// son[][]存储树中每个节点的子节点// cnt[]存储以每个节点结尾的单词数量// 插入一个字符串void insert(char *str){    int p = 0;    for (int i = 0; str[i]; i ++ )    {        int u = str[i] - 'a';        if (!son[p][u]) son[p][u] = ++ idx;        p = son[p][u];    }    cnt[p] ++ ;}// 查问字符串呈现的次数int query(char *str){    int p = 0;    for (int i = 0; str[i]; i ++ )    {        int u = str[i] - 'a';        if (!son[p][u]) return 0;        p = son[p][u];    }    return cnt[p];}

利用最大异或对

在给定的 N个整数 $A_1$，$A_2$……$A_N$ 中选出两个进行 $xor$（异或）运算（个别异或运算是按位计算的），失去的后果最大是多少？

输出格局

第一行输出一个整数 N。

第二行输出 N 个整数 $A_1$～$A_N$。

输入格局

输入一个整数示意答案。

数据范畴

$1≤N≤10^5$
$0≤A_i<2^{31}$

输出样例：

31 2 3

输入样例：

剖析

首先是暴力做法BF $O(n^2)$：

for (int i = 0; i < n; i++){    for (int j = 0; j < i; j++)    {        // 但其实 a[i] ^ a[j] == a[j] ^ a[i], 所以内层循环 j < i         // 因为 a[i] ^ a[i] == 0 所以当时把返回值初始化成0 不必判断相等的状况    }}

异或也能够了解为不进位加法，雷同的话异或值为0。Trie树不仅能够存储整数，也能够存储二进制数。而计算机中所有文件都是以二进制的模式保留的，换句话说Trie数能够存储任何文件。异或后最大，这须要寻找出与原数每位不同的数，为保障最大值，须要从最高位开始顺次寻找，过程如下所示：

能够不必先全副插入，因为这是有程序的，防止屡次枚举 $a_j$ 和 $a_i$ 以及 $a_i$ 和 $a_j$ 的状况。因而能够先查找再插入（可能最开始的状况下要写一个特判,因为最开始没有能够查找的内容），当然也能够先插入再查找（可能存在的问题就是每次本人和本人异或是0，没有意义）。

#include <iostream>#include <algorithm>using namespace std;// N是整数个数，M是树的总宽度const int N = 100010, M = 3100010;int n;int a[N], son[M][2], idx;void insert(int x){    int p = 0;    for (int i = 30; i >= 0; i -- )    {        // 从高到低顺次取每一位        int u = x >> i & 1;        // 没有该节点则插入该节点        if (!son[p][u]) son[p][u] = ++ idx;        // 指针指向下一层        p = son[p][u];    }}int query(int x){    int p = 0, res = 0;    for (int i = 30; i >= 0; i -- )    {        // 从最大位开始找        int u = x >> i & 1;        // 如果以后层有对应的不雷同的数,p指针就指到不同数的地址        if (son[p][!u])        {            p = son[p][!u];            // 因为这一位不同，异或后为1，这里向前移位并且保留相反数即可。            res = res * 2 + !u;        }        else         {            p = son[p][u];            // 如果没有相异的数，则只能向前移一位而后保留该数即可。            res = res * 2 + u;        }    }    return res;}int main(){    scanf("%d", &n);    for (int i = 0; i < n; i ++ ) scanf("%d", &a[i]);    int res = 0;    for (int i = 0; i < n; i ++ )     {        insert(a[i]);        int t = query(a[i]);        // 最初再进行异或解决        res = max(res, a[i] ^ t);    }    printf("%d\n", res);    return 0;}

同时，这里对于代码有两个思路，一个是下面这种query须要寻找的对应的异或的整数，最初 max(res, a[i] ^ t) 失去后果。

此外还能够间接在 query 中提前进行比拟计算，最初间接比拟后果即可 max(res, t)，过程如下：

int query(int x){    int p = 0, res = 0;    for (int i = 30; i >= 0; i -- )    {        // 从最大位开始找        int u = x >> i & 1;        // 如果以后层有对应的不雷同的数,p指针就指到不同数的地址        if (son[p][!u])        {            p = son[p][!u];            // 因为这一位不同，异或后为1，只须要向前移并且加1即可            res = res * 2 + 1;        }        else         {            p = son[p][u];            // 这一位雷同，xor后为0，向前移一位而后置0即可。            res = res * 2 + 0;        }    }    return res;}