关于大数据:浅谈常见数据结构和算法的应用系列一

近来有小伙伴问我：刷leetcode真的有用吗，感觉收益很小，越刷越迷茫了…

诚然每个人刷题的目标不一样，233酱还不是为了能水几篇文章…

当然不止。我感觉刷题是一件有意思的事，就像小猫小狗咬本人尾巴，捉弄的不可开交。比喻可能不太失当，是有种沉迷小游戏的感觉。可是在艰巨打野的过程中，咱们不要忘了，最重要的是：理解每种技能包的特点，适宜解决的问题和场景。在特定实战场景下可能应用特定的技能包，借鉴技能包。这才是文治的至高境界。

装X完结，浅谈开始。。

数据结构是指：一种数据组织、治理和存储的格局，它能够帮忙咱们实现对数据高效的拜访和批改。

数据结构 = 数据元素 + 元素之间的构造。

如果说数据结构是造大楼的骨架，算法就是具体的造楼流程。流程不同，效率资源不同。我会两者联合简略探讨下他们的特点和利用。

常见的数据结构可分为：线性构造、树形构造和图状构造。

常见的算法有：递归、排序、二分查找、搜寻、哈希算法、贪婪算法、分治算法、回溯算法、动静布局、字符串匹配算法等。

本文从 线性数据结构、递归和排序算法 谈起。

线性构造

线性构造：是指数据排成像一条线一样的构造。每个元素结点最多对应一个前驱结点和一个后继结点。如数组, 链表，栈，队列等。

数组

数组是是由雷同类型的元素（element）的汇合所组成的数据结构，调配一块间断的内存来存储。利用元素的下标地位能够计算出该元素对应的存储地址。

长处：
调配基于间断内存，是一种天生的索引构造，查问批改元素的效率O(1)。同时能够借助 CPU 的缓存机制，预读数组中的数据，所以拜访效率更高。

毛病：
数组的索引长处也是它的毛病，因为它的索引是基于一块间断内存元素存储的地位下标决定的，增删arr[i]工夫复杂度O(n)，须要整体挪动数组arr[i-n-1]的地位。此外，调配大数组会占用较大的内存。

可通过以下形式防止元素拷贝和占用大的开销：

1.懒删除：删除时只标记元素被删除，并不真正的执行删除。当数组整体内存不够用时，再执行真正的删除。
2.分块思维：将一大块内存分为n个小块，以小块为单位进行数组内存的拷贝。如Mysql的InnoDB引擎中每个Buffer Pool实例由若干个chunk组成，理论内存申请操作以chunk为单位。
3.缩容：已经面试阿里时，就让设计了一个缩容版的HashMap。节约可耻，节约光彩。
4.链表。

链表

链表的存在就是为了解决数组的增删简单耗时，内存占用较大的问题。它并不需要一块间断的内存空间，它通过指针将一组零散的内存块串联起来。依据指针的不同，有单链表，双向链表，循环链表之分。

长处：
增删arr[i]工夫复杂度O(1)，应用链表自身没有大小的限度，人造地反对动静扩容。

毛病：
没有“索引”，查问工夫复杂度O(n)。须要保护指针，更占内存。同时内存不间断，容易造成内存碎片。

能够看出：数组和链表是互相补充的一对数据结构。那怎么补救链表的有余呢？

内存这块是不好解决，这是由指针决定的。对于索引，没索引就帮它建索引好了：

1.联合hash表，记录链表每个结点的地位。
2.链表长度拉的过长时，思考跳表，红黑树这类数据结构。（别慌，前面会讲～）

利用场景：
数组和链表的使用很宽泛，他们是形成数据结构的根底。如栈，队列，汇合等等。

栈

栈是一种受限制的线性数据结构。元素只能够在栈顶被拜访。合乎先进后出的First-In-Last-Out的拜访形式。

用数组实现的叫程序栈，用链表实现的叫链式栈。可能有人会有疑难：我用数组链表在头尾两端可伸可缩，为毛要用只能在头部操作的栈构造呢？
这种FILO的构造当然是只实用于FILO的场景。如果咱们将数组/链表这种构造封装为栈，就能够只应用其pop/push的API，屏蔽掉实现细节。

利用场景：
1.编辑器的redo/undo操作。
2.浏览器的后退/后退操作。
3.编译器的括号匹配校验
4.数学计算中的表达式求值
5.函数调用
6.递归
7.字符串反转…

队列

队列也是一种受限制的线性数据结构。合乎先进先出的First-In-First-Out 的拜访形式。同样，用数组实现的队列叫作程序队列，用链表实现的队列叫作链式队列。

依据头尾指针和操作的不同，队列又可分为双端队列，循环队列，阻塞队列，并发队列。

双端队列：头尾均能够进行插入，删除，拜访元素，更为实用。不存在FIFO这种限度。

循环队列：把队列的头尾相连接并且应用顺序存储构造进行数据存储的队列。

存在并发的场景下，队列存取元素的临界区为 队列空时的取操作 和 队列满时的存操作。保障并发下的队列存取平安为阻塞队列和并发队列。两者的区别在于同步资源的粒度不同。

阻塞队列：通过 互斥锁 保障enqueue、dequeue的平安，锁粒度较大。如Java JUC包中的阻塞队列。
并发队列：基于数组的循环队列，利用 CAS 原子操作保障enqueue、dequeue的平安。
其实就是通过：屡次volatile读 + CAS操作 这种乐观思维批改头尾指针的地位，保障enqueue、dequeue的平安。CAS的同步代价小较小，所以称为：无锁并发队列。如Disruptor框架中Ring Buffer就使用了这点。

PS: 很多框架对线程池的需要都替换成了Disruptor来实现，如Log4j2、Canal等。

利用场景：
队列的作用其实就是事实中的排队。当资源有余时，通过“队列” 这种构造来实现排队的成果。用于：
1.任务调度存在的中央：CPU/磁盘/线程池/任务调度框架…
2.两个过程中数据的传递：如pipe/file IO/IO Buffer…
3.生产者消费者场景中..
4.LRU

递归实现

递归是一种算法求解的编码实现。利用于如深度优先搜寻、前中后序二叉树遍历（挖坑前面讲～）等。因为接下来的排序算法如：归并/快排可通过递归来实现，所以咱们先看一下书写递归的步骤。相熟了递归的思维，它其实是一种书写简略的编码方式。

只有问题满足以下三点，均可应用递归来进行求解：

1.一个问题的解能够合成为几个子问题的解
2.问题和子问题之间，除了数据规模不同，求解思路齐全一样
3.存在递归终止条件

写递归代码的关键在于：找到如何将大问题合成为小问题的法则，并且基于此写出递推公式，而后再敲定终止条件，最初将递推公式和终止条件翻译成代码。

因为人并不善于解决这种程序，所以在写递归代码的时候，咱们能够主动屏蔽掉递归的执行过程。咱们只须要通知程序：递推公式 和 终止条件 是什么，事件就会便Easy~

应用时的留神项：

1.stackoverflow: 理论函数调用档次太深，就会有零碎栈或者虚拟机栈空间溢出的危险。

2.子问题的反复计算：后面文章我有讲动静布局通过防止子问题的反复计算可能升高工夫复杂度。一种形式就是通过递归 + 备忘录（子问题的解保存起来）来解决。

排序算法

233酱学习的第一个算法就是冒泡排序算法，我想不少码农都经验过被 “几大排序算法” 摆布的恐怖。

排序是咱们在我的项目工程中常常遇到的一个场景，如TopK，中位数问题等。有序和无序的数据汇合之间的差异在于前者 “逆序对” 为0.

小贴士：如果i < j，且a[i] > a[j], 就称为一个逆序对，如 1，7，3，5 中的 <7，5>
反之则为有序对，如<1,3>

不同的排序算法毁灭逆序对的形式不一样，体现在时空复杂度，排序形式，稳定性，实用场景等方面不同。

我先放一张网上排序算法的图：

抉择排序算法时，咱们应该思考算法的执行效率，内存耗费，稳定性等这些因素。

PS：以下内容次要援用极客工夫王争大佬的《数据结构和算法之美》课程，233能力无限，默默给大佬打广告&点赞。

如何剖析排序算法的执行效率

最好状况、最坏状况、均匀状况工夫复杂度

对于要排序的原始数据，数据的有序度不同，对排序的执行效率是有影响的。比方靠近有序的待排序数据插入排序的工夫复杂度靠近O(n)。咱们须要理解排序算法在不同数据下的性能体现。

2.工夫复杂度的系数、常数、低阶

在对小规模的数据排序时，如10个，100个，1000个。须要把系数、常数、低阶也思考进来，能力抉择适合的排序算法。

3.比拟次数和替换（或挪动）次数

基于比拟的排序算法的执行过程，会波及两种操作，一种是元素比拟大小，另一种是元素替换或挪动。所以，如果咱们在剖析排序算法的执行效率的时候，应该把比拟次数和替换（或挪动）次数也思考进去。

排序算法的内存耗费

上图中有一列排序形式：原地排序（In-place）和内部排序(Out-place)。前者是指空间复杂度为O(1)的排序算法，不须要在内部开拓内存空间。后者须要额定开拓空间来存储中间状态。前者的益处在于能够借助 CPU 的缓存机制，拜访效率更高。这是一个重要的考量因素。

小贴士：快排的空间复杂度为是因为它的实现是递归调用的，每次函数调用中只应用了常数的空间，因而空间复杂度等于递归深度O(logn)。

排序算法的稳定性

稳定性是指：待排序的序列中存在值相等的元素，通过排序之后，相等元素之间原有的先后顺序是不变的。

为啥要思考排序算法的稳定性呢？
这是因为理论场景中的待排序的对象排序维度可能是多个。比方咱们对订单先依照金额排序，再依照下单工夫排序。实现简略的思路为：先给订单依照下单工夫排序，再依照金额排序。稳定性的排序算法可能保障金额雷同的两个对象，在排序之后的下单程序不变。

上面次要从数据规模上探讨这些排序算法的利用。

小规模数据排序

在小规模数据下，冒泡排序/抉择排序/插入排序实现较为简单，排除不稳固的抉择排序，插入排序（可类比打扑克抓牌时的排序思维）比冒泡排序（最大元素顺次往后冒）好在替换次数少，小规模下排序效率更高。

此外当待排序序列的有序度比拟高时，插入排序也好过归并/快排这类O(nlogn)的效率。所以在小规模数据场景下，适宜用插入排序。

大规模内存级数据排序
大规模数据排序适宜思考O(nlogn)级别的排序算法，这里探讨归并排序和疾速排序。

归并排序的思维是分治思维。将整个无序序列的排序划分为无序小序列的排序问题。子序列有序了，再合并起来有序的子序列，整体就排好序了。
归并排序是内部排序。每次合并操作都须要申请额定的内存空间，在合并实现之后，长期开拓的内存空间就被开释掉了。在任意时刻，CPU 只会有一个函数在执行，也就只会有一个长期的内存空间在应用。长期内存空间最大也不会超过 n 个数据的大小，所以空间复杂度是 O(n)。

疾速排序利用的也是分治思维。部分有序最终全局有序。它应用一个分区点数据(pivort)将元素分为< pivort,=pivort,>pivort三个局部。而后在< pivort 和 >pivort这两局部持续递归解决，最终排序实现。

如果快排正当的抉择pivort，多路指针参加分区能够防止工夫复杂度的好转。而且快排是原地排序，相比归并排序是内部排序，空间复杂度较高O(n)。快排的利用更为宽泛。

Java中Arrays.sort是混合排序，实现策略分为两种：

Case1. 存储的数据类型是根本数据类型

应用的是快排，在数据量很小的时候，应用的插入排序；

Case2. 存储的数据类型是Object

应用的是归并排序，在数据量很小的时候，应用的也是插入排序

大规模内部数据排序

当数据规模很大时，咱们并不能把所有数据都加载到内存。这时候能够思考工夫复杂度是 O(n) 的内部排序算法：桶排序、计数排序、基数排序。内部排序是指数据存储在内部磁盘中。

这里工夫复杂度之所以低是因为：这三个算法是非基于比拟的排序算法，都不波及元素之间的比拟操作。

桶排序是依照某种属性将元素调配到全局有序的子桶内，再在子桶内做部分排序。当子桶个数划分的足够大时，工夫复杂度就靠近O(n) 。

计数排序其实是桶排序的一种非凡状况。当要排序的 n 个数据，所处的范畴并不大的时候，比方最大值是 k，咱们就能够把数据划分成 k 个桶。每个桶内的数据值都是雷同的，省掉了桶内排序的工夫。

基数排序是依据每一位来排序，基数排序对要排序的数据是有要求的，须要能够宰割出独立的“位”来比拟，而且位之间有递进的关系，如果 a 数据的高位比 b 数据大，那剩下的低位就不必比拟了。除此之外，每一位的数据范畴不能太大，要能够用线性排序算法来排序，否则，基数排序的工夫复杂度就无奈做到 O(n) 了。

感谢您的浏览，文中有谬误或者太过通俗的局部还请帮233酱指出&补充。感觉有播种就四连「关注，点赞，在看，转发」反对下233酱吧。

另外，关注公众号【码农知识点】加我微信好友，欢送退出我的刷题技术探讨群。和233独特成长提高～

参考资料：

[1].维基百科

[2].https://time.geekbang.org/column/intro/126

[3].https://zhuanlan.zhihu.com/c_190721074

关于大数据:浅谈常见数据结构和算法的应用系列一

线性构造

数组

链表

栈

队列

递归实现

排序算法

如何剖析排序算法的执行效率

排序算法的内存耗费

排序算法的稳定性

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于大数据:浅谈常见数据结构和算法的应用系列一

线性构造

数组

链表

栈

队列

递归实现

排序算法

如何剖析排序算法的执行效率

排序算法的内存耗费

排序算法的稳定性

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复