关于数据结构:数据结构与算法系列之跳表GO

前边的一篇文章中分享了二分查找算法，里边有说到二分查找算法依赖数组的随机拜访个性，只能用数组来实现。如果数据存储在链表中就没法用二分查找算法了

本篇文章分享的「跳表」，能够实现相似二分的查找算法，工夫复杂度也是「O(logn)」

假如有一个有序的单链表，如果想从该链表中查找某一个数据，只能从头到尾的遍历查找，它的工夫复杂度是 O(n)。如何进步查找的效率？

假如我像下图这样，在原来的单链表上减少一级索引，每两个节点取一个结点到「索引层」。其中 down 为指向下一级节点的指针

假如当初须要查找【16】这个节点。能够先遍历索引层节点，当遍历到【13】这个节点时，发现下一个节点为【17】，那么咱们要找的节点【16】必定就在它们两头。此时，通过索引节点【13】的 down 指针，降落到原始链表层中持续遍历，此时只须要再遍历两个节点就找到了咱们要查找的【16】。如果间接在原始链表中查找【16】，须要遍历 10 个结点，当初只须要遍历 7 个结点

从上边能够发现，加了一层索引之后，查找一个节点须要遍历的节点数缩小了，也就意味着查找的效率进步了，如果咱们减少更多的索引层，效率会不会进步更多？

假如当初在原来的一级索引上边按同样的办法，再减少一层索引，如果再查【16】这个节点，只须要遍历 6 个结点了。查找一个节点须要遍历的节点又缩小了

上边的例子中，原始链表的节点数量并不多，每减少一层索引，查问效率进步的并不显著，下边假如原始链表中有 64 个节点，建设 5 级索引

从图中能够看出，原来没有索引的时候，查找【62】这个节点须要遍历 62 个节点，当初只须要遍历 11 个节点，速度进步了很多。当链表的长度 n 比拟大时，比方 1000、10000 的时候，在构建索引之后，查找效率的晋升就会非常明显。「这种链表加多级索引的构造，就是跳表」

如果链表里有 n 个结点，能够有多少级索引？

依照上边例子中的那种形式，每两个结点会抽出一个结点作为上一级索引的结点，那第一级索引的结点个数大概就是 n /2，第二级索引的结点个数大概就是 n /4，第三级索引的结点个数大概就是 n /8，顺次类推，也就是说，第 k 级索引的结点个数是第 k - 1 级索引的结点个数的 1 /2，那第 k 级索引结点的个数就是 n/(2^k)

假如索引有 h 级，最高级的索引有 2 个结点。通过下面的公式，能够失去 n /(2^h)=2，从而求得 h=log2n-1(2 为底)。如果蕴含原始链表这一层，整个跳表的高度就是 log2n(2 为底)。「在跳表中查问某个数据的时候，如果每一层都要遍历 m 个结点，那在跳表中查问一个数据的工夫复杂度就是 O(m*logn)」

这个 m 的值是多少？依照上边的例子中这种索引构造，咱们每一级索引都最多只须要遍历 3 个结点，也就是说 m =3，解释一下为啥是 3

假如要查找的数据是 x，在第 k 级索引中，咱们遍历到 y 结点之后，发现 x 大于 y，小于前面的结点 z，所以咱们通过 y 的 down 指针，从第 k 级索引降落到第 k -1 级索引。在第 k - 1 级索引中，y 和 z 之间只有 3 个结点（蕴含 y 和 z），所以，咱们在 k - 1 级索引中最多只须要遍历 3 个结点，顺次类推，每一级索引都最多只须要遍历 3 个结点

通过下面的剖析，失去 m =3，所以「在跳表中查问任意数据的工夫复杂度就是 O(logn)」。这个查找的工夫复杂度跟二分查找是一样的。换句话说，其实是基于单链表实现了二分查找。不过，天下没有收费的午餐，这种查问效率的晋升，前提是建设了很多级索引，是一种空间换工夫的思路

假如原始链表大小为 n，那第一级索引大概有 n / 2 个结点，第二级索引大概有 n / 4 个结点，以此类推，每回升一级就缩小一半，直到剩下 2 个结点。如果咱们把每层索引的结点数写进去，就是一个等比数列

`n/2, n/4, n/8,…,8, 4, 2
`

这几级索引的结点总和就是 n /2+n/4+n/8…+8+4+2=n-2。所以，「跳表的空间复杂度是 O(n)」。也就是说，如果将蕴含 n 个结点的单链表结构成跳表，咱们须要额定再用靠近 n 个结点的存储空间

有没有方法升高索引占用的内存空间呢？

升高跳表空间复杂度的办法

后面都是每两个结点抽一个结点到下级索引，如果咱们每三个结点或五个结点，抽一个结点到下级索引，就不必那么多索引结点了

从图中能够看出，第一级索引须要大概 n / 3 个结点，第二级索引须要大概 n / 9 个结点。每往上一级，索引结点个数都除以 3。为了不便计算，假如最高一级的索引结点个数是 1。咱们把每级索引的结点个数都写下来，也是一个等比数列

`n/3, n/9, n/27, … , 9, 3, 1
`

通过等比数列求和公式，总的索引结点大概就是 n /3+n/9+n/27+…+9+3+1=n/2。只管空间复杂度还是 O(n)，但比下面的每两个结点抽一个结点的索引构建办法，要缩小了一半的索引节点存储空间

实际上，在平时开发中，不用太在意索引占用的额定空间。在数据结构和算法中，习惯性地把要解决的数据看成 「整数」，然而在理论的开发中，原始链表中存储的有可能是「很大的对象」，而索引结点只须要「存储要害值」 和几个指针，并不需要存储对象，「所以当对象比索引结点大很多时，那索引占用的额定空间就能够疏忽了」

跳表是个「动静数据结构」，不仅反对查找操作，还反对动静的插入、删除操作，而且插入、删除操作的工夫复杂度也是「O(logn)」

在单链表中，一旦定位好要插入的地位，插入结点的工夫复杂度是很低的，就是 O(1)。然而，为了保障原始链表中数据的有序性，须要先找到要插入的地位，这个查找操作就会比拟耗时

对于纯正的单链表，须要遍历每个结点，来找到插入的地位。然而，对于跳表来说，查找某个节点的工夫复杂度是 O(logn)，所以这里查找某个数据应该插入的地位，办法也是相似的，工夫复杂度也是 O(logn)

「如果要删除的结点在索引中有呈现，除了要删除原始链表中的结点，还要删除索引中的」。因为单链表中的删除操作须要拿到要删除结点的前驱结点，而后通过指针操作实现删除。所以在查找要删除的结点的时候，肯定要获取前驱结点。当然，如果用的是双向链表，就不须要思考这个问题了

当不停地往跳表中插入数据时，如果不更新索引，就有可能呈现某 2 个索引结点之间数据十分多的状况。极其状况下，跳表还会进化成单链表

作为一种动静数据结构，它须要某种伎俩来保护索引与原始链表大小之间的均衡，也就是说，如果链表中结点多了，索引结点就相应地减少一些，防止复杂度进化，以及查找、插入、删除操作性能降落

「后边会分享到的红黑树、AVL 树这样的均衡二叉树，它们是通过左右旋的形式放弃左右子树的大小均衡」，而跳表是通过 「随机函数」 来保护后面提到的“平衡性”

当咱们往跳表中插入数据的时候，能够抉择同时将这个数据插入到局部索引层中。如何抉择退出哪些索引层，就是随机函数要干的事件

通过一个随机函数，来决定将这个结点插入到哪几级索引中，比方随机函数生成了值 K，那就将这个结点增加到 「第一级到第 K 级」 这 K 级索引中

随机函数的抉择很有考究，从概率上来讲，可能保障跳表的索引大小和数据大小平衡性，不至于性能适度进化

「为什么 Redis 要用跳表来实现有序汇合，而不是红黑树？」

Redis 中的有序汇合是通过跳表来实现的，严格点讲，其实还用到了「散列表」。后边的文章会分享到散列表，所以当初暂且疏忽这部分。如果你理解 Redis 中的有序汇合，它反对的外围操作次要有上面这几个

插入一个数据；
删除一个数据；
查找一个数据；
依照区间查找数据（比方查找值在 [100, 356] 之间的数据）；
迭代输入有序序列

其中，插入、删除、查找以及迭代输入有序序列这几个操作，红黑树也能够实现，工夫复杂度跟跳表是一样的。然而，「依照区间来查找数据这个操作，红黑树的效率没有跳表高」

对于依照区间查找数据这个操作，跳表能够做到 O(logn)的工夫复杂度定位区间的终点，而后在原始链表中程序往后遍历就能够了。这样做十分高效

Redis 之所以用跳表来实现有序汇合，还有其余起因，比方，跳表更容易代码实现。尽管跳表的实现也不简略，但比起红黑树来说还是好懂、好写多了，而简略就意味着可读性好，不容易出错。还有，跳表更加灵便，它能够通过扭转索引构建策略，无效均衡执行效率和内存耗费

不过，跳表也不能齐全代替红黑树。因为红黑树比跳表的呈现要早一些，很多编程语言中的 Map 类型都是通过红黑树来实现的。做业务开发的时候，间接拿来用就能够了，不必吃力本人去实现一个红黑树，然而跳表并没有一个现成的实现，所以在开发中，如果你想应用跳表，必须要本人实现

关于数据结构:数据结构与算法系列之跳表GO

具体理解跳表

跳表的工夫复杂度

跳表的空间复杂度剖析

升高跳表空间复杂度的办法

跳表操作

插入

删除

索引动静更新

跳表的利用