关于算法:Trie树模板与应用

35次阅读

共计 3878 个字符,预计需要花费 10 分钟才能阅读完成。

文章和代码曾经归档至【Github 仓库:https://github.com/timerring/algorithms-notes】或者公众号【AIShareLab】回复 算法笔记 也可获取。

Trie 树(字典树)

Trie 树是用来疾速存储和查找 字符串汇合的数据结构。某个字符串汇合对应的有根树。树的每条边上对应有恰好一个字符,每个顶点代表从根到该节点的门路所对应的字符串(将所有通过的边上的字符按程序连接起来)。利用字符串的公共前缀来缩小查问工夫,最大限度地缩小无谓的字符串比拟,查问效率比哈希树高。

根本思维

存储若干字符串(通常样本中的字符较少),而后依据字符串中字符呈现的先后顺序建设树,把具备雷同前缀的字符串依照其前缀归类在一个分支中,并且须要在字符串的最初一个地位进行标记(表明到此为一个残缺的字符串)。

查找时只须要寻找是否有匹配的序列,并且是否已标记结尾即可。

例题 Trie 字符串统计

保护一个字符串汇合,反对两种操作:

  1. I x 向汇合中插入一个字符串 x;
  2. Q x 询问一个字符串在汇合中呈现了多少次。

共有 N 个操作,输出的字符串总长度不超过 $10^5$,字符串仅蕴含小写英文字母。

输出格局

第一行蕴含整数 N,示意操作数。

接下来 N 行,每行蕴含一个操作指令,指令为 I xQ x 中的一种。

输入格局

对于每个询问指令 Q x,都要输入一个整数作为后果,示意 x 在汇合中呈现的次数。

每个后果占一行。

数据范畴

$1≤N≤2∗10^4$

输出样例:

5
I abc
Q abc
Q ab
I ab
Q ab

输入样例:

1
0
1

code

#include<iostream>
using namespace std;

const int N = 100010;
// 下标 0 代表根节点和空节点,cnt 用于计数,idx 代表以后的节点(和单链表一样)相当于是一个举世无双的递增编号,son[N][26]每个节点最多有 26 条边(小写英文字母)int son[N][26], cnt[N], idx;
char str[N];
// 插入
void insert(char str[])
{
    int p = 0;// 根节点
    // 遍历字符串,cpp 中 str 最初一位是 \0
    for(int i = 0; str[i]; i ++)
    {
        // 映射字母 a - z 为 0 -25
        int u = str[i] - 'a';
        // 若不存在该节点则创立一个
        if(!son[p][u]) son[p][u] = ++ idx;
        // 走到该子节点
        p = son[p][u];
    }
    cnt[p] ++ ;// 标记该子节点存在的单词个数 记住这里 p = son[p][u];
}
// 查问
int query(char str[])
{
    int p = 0;
    for(int i = 0; str[i]; i++)
    {int u = str[i] - 'a';
        if(!son[p][u]) return 0;
        p = son[p][u];
    }
    
    return cnt[p];
}

int main()
{//ios::sync_with_stdio(false);
    //cin.tie(0);
    int n;
    scanf("%d", &n);
    while(n --)
    {char op[2];
        scanf("%s%s", op, str);
        if(op[0] == 'I') insert(str);
        else printf("%d\n", query(str));
    }
    return 0;
}

对于 idx 的了解

不论是链表,Trie 树还是堆,他们的根本单元都是一个个结点连贯形成的,能够成为“链”式构造。这个结点蕴含两个根本的属性:自身的值和指向下一个结点的指针。按情理,应该依照构造体的形式来实现这些数据结构的,然而做算法题个别用数组模仿,次要是因为比拟快。

原来这两个属性都是以构造体的形式分割在一起的,当初如果用数组模仿,如何能力把这两个属性分割起来呢,如何辨别各个结点呢?答案是采纳 idx。

idx 的操作总是 idx++,这就保障了不同的 idx 值对应不同的结点,这样就能够利用 idx 把构造体内两个属性分割在一起了。因而,idx 能够了解为结点。

idx 相当于一个分配器,如果须要退出新的结点就用 ++idx 调配出一个下标, 输出字符串的总长度不超过 $10^5$,因而最多会用到 $10^5$ 个 idx。

Trie 树中有个二维数组 son[N][26],示意以后结点的儿子,如果没有的话,能够等于 ++idx。Trie 树实质上是一颗多叉树,对于字母而言最多有 26 个子结点。所以这个数组蕴含了两条信息。比方:son[1][0]=2示意 1 结点的一个值为 a 的子结点为结点 2; 如果 son[1][0] = 0,则意味着没有值为a 子结点。这里的 son[N][26] 相当于链表中的ne[N]。当然这里 2 仅仅是一个节点的编号而已。

参考:https://www.acwing.com/solution/content/5673/

模板总结

int son[N][26], cnt[N], idx;
// 0 号点既是根节点,又是空节点
// son[][]存储树中每个节点的子节点
// cnt[]存储以每个节点结尾的单词数量

// 插入一个字符串
void insert(char *str)
{
    int p = 0;
    for (int i = 0; str[i]; i ++ )
    {int u = str[i] - 'a';
        if (!son[p][u]) son[p][u] = ++ idx;
        p = son[p][u];
    }
    cnt[p] ++ ;
}

// 查问字符串呈现的次数
int query(char *str)
{
    int p = 0;
    for (int i = 0; str[i]; i ++ )
    {int u = str[i] - 'a';
        if (!son[p][u]) return 0;
        p = son[p][u];
    }
    return cnt[p];
}

利用 最大异或对

在给定的 N 个整数 $A_1$,$A_2$……$A_N$ 中选出两个进行 $xor$(异或)运算(个别异或运算是按位计算的),失去的后果最大是多少?

输出格局

第一行输出一个整数 N。

第二行输出 N 个整数 $A_1$~$A_N$。

输入格局

输入一个整数示意答案。

数据范畴

$1≤N≤10^5$
$0≤A_i<2^{31}$

输出样例:

3
1 2 3

输入样例:

3

剖析

首先是暴力做法 BF $O(n^2)$:

for (int i = 0; i < n; i++)
{for (int j = 0; j < i; j++)
    {// 但其实 a[i] ^ a[j] == a[j] ^ a[i], 所以内层循环 j < i 
        // 因为 a[i] ^ a[i] == 0 所以当时把返回值初始化成 0 不必判断相等的状况
    }
}

异或也能够了解为不进位加法,雷同的话异或值为 0。Trie 树不仅能够存储整数,也能够存储二进制数。而计算机中所有文件都是以二进制的模式保留的,换句话说 Trie 数能够存储任何文件。异或后最大,这须要寻找出与原数每位不同的数,为保障最大值,须要从最高位开始顺次寻找,过程如下所示:

能够不必先全副插入,因为这是有程序的,防止屡次枚举 $a_j$ 和 $a_i$ 以及 $a_i$ 和 $a_j$ 的状况。因而能够先查找再插入(可能最开始的状况下要写一个特判, 因为最开始没有能够查找的内容),当然也能够先插入再查找(可能存在的问题就是每次本人和本人异或是 0,没有意义)。

#include <iostream>
#include <algorithm>

using namespace std;
// N 是整数个数,M 是树的总宽度
const int N = 100010, M = 3100010;

int n;
int a[N], son[M][2], idx;

void insert(int x)
{
    int p = 0;
    for (int i = 30; i >= 0; i --)
    {
        // 从高到低顺次取每一位
        int u = x >> i & 1;
        // 没有该节点则插入该节点
        if (!son[p][u]) son[p][u] = ++ idx;
        // 指针指向下一层
        p = son[p][u];
    }
}

int query(int x)
{
    int p = 0, res = 0;
    for (int i = 30; i >= 0; i --)
    {
        // 从最大位开始找
        int u = x >> i & 1;
        // 如果以后层有对应的不雷同的数,p 指针就指到不同数的地址
        if (son[p][!u])
        {p = son[p][!u];
            // 因为这一位不同,异或后为 1,这里向前移位并且保留相反数即可。res = res * 2 + !u;
        }
        else 
        {p = son[p][u];
            // 如果没有相异的数,则只能向前移一位而后保留该数即可。res = res * 2 + u;
        }
    }
    return res;
}

int main()
{scanf("%d", &n);
    for (int i = 0; i < n; i ++) scanf("%d", &a[i]);

    int res = 0;
    for (int i = 0; i < n; i ++) 
    {insert(a[i]);
        int t = query(a[i]);
        // 最初再进行异或解决
        res = max(res, a[i] ^ t);
    }

    printf("%d\n", res);

    return 0;
}

同时,这里对于代码有两个思路,一个是下面这种 query 须要寻找的对应的异或的整数,最初 max(res, a[i] ^ t) 失去后果。

此外还能够间接在 query 中提前进行比拟计算,最初间接比拟后果即可 max(res, t),过程如下:

int query(int x)
{
    int p = 0, res = 0;
    for (int i = 30; i >= 0; i --)
    {
        // 从最大位开始找
        int u = x >> i & 1;
        // 如果以后层有对应的不雷同的数,p 指针就指到不同数的地址
        if (son[p][!u])
        {p = son[p][!u];
            // 因为这一位不同,异或后为 1,只须要向前移并且加 1 即可
            res = res * 2 + 1;
        }
        else 
        {p = son[p][u];
            // 这一位雷同,xor 后为 0,向前移一位而后置 0 即可。res = res * 2 + 0;
        }
    }
    return res;
}

正文完
 0