关于redis:Redis数据结构详解1redis中的字符串SDS

7次阅读

共计 3076 个字符,预计需要花费 8 分钟才能阅读完成。

前提常识🧀

咱们先从百科上摘下 Redis 的解释:

Redis 是一个应用 ANSI C 编写的开源、反对网络、基于内存、分布式、可选持久性的键值对存储数据库。
(不必过多在意 ANSI,它只是一个规范,你能够了解为晚期民间版本很多,起初对立了规范,大学课程里包含当初在用的都是标准化后的 C 语言版本)

没错!Redis 的底层是由 C 语言 实现的!大学不论是什么业余应该都有这个课,然而不论大家还有没有它的记忆,都不影响咱们接下来的学习哈哈哈~

redis 第一步,字符串是根底

回想当初学习 Java,第一个学习的数据类型应该是根本类型,但 redis 里最根底的构造其实是字符串,简直哪里都有它。在 mysql 定义字段类型时,个别老哥会很中意 varchar 这个类型,因为 万物皆可 varchar(不探讨性能的状况下),其实 redis 就有点这个意思,很多构造的根底都是字符串。

下面提到 Redis 的底层是由 C 语言实现的,那岂不是间接拿 C 语言的字符串(以空字符结尾的字符数组,以下简称 C 字符串)来用就行?

我先答复了:不行,因为 C 语言作为晚期的编程语言,C 字符串是有些“有余”或者说是须要补充的,尤其是像 redis 这样对速度要求严苛,字符串可能会被频繁批改的服务,于是 redis 在 C 字符串的根底上,本人结构了名为 简略动静字符串(simple dynamic string,SDS)的形象类型,用作 redis 本人的默认字符串。

(redis 也不是就不必 C 字符串了,只会使用在一些无需对字符串值做批改的中央,例如打印日志时)

C 字符串简略介绍,嗯,简略。


首先上图就是一个值为 ”yikun” 的 C 字符串。
不理解的小伙伴可能不晓得为什么前面多了个 ’\0’,其实这个字符是空字符,也能够了解为 C 语言的“字符串终止符”。
长度为 N 的字符串,会用长度为 N + 1 的字符数组来示意,最初多进去的 1 长度就是专门用来存储空符 ’\0’ 的。

而后没了。
C 语言的字符串就是这么简略。

不急,咱们持续往后说~

那么 C 字符串有哪些“有余”呢?

俗话说得好:知己知彼,屡战屡败。
咱们得晓得 C 语言的“有余”,能力晓得 redis 为了补救这种状况,在 SDS 中做了什么措施。

1.C 字符串并没有记录本身长度。
2. 会依据空字符 ’\0’ 来判断字符串是否完结。
3. 只能依据空字符 ’\0’ 来判断字符串是否完结。

2 和 3 如同差不多,但意思其实是有细微差别的。
(果然中华文化博大精深~)

C 字符串因为下面的“有余”会引起什么问题?

1. 获取字符串长度复杂度高

因为 有余 1 有余 3 ,所以 C 字符串只能通过遍历字符来获取长度。

咱们这里用 Java 的 for 循环(只是用 Java 举例,理论是 C 语言实现的)简略阐明下 C 语言如何获取字符串长度。
可见字符串越长,这个操作就越耗时,复杂度为 O(N)。

2. 缓冲区溢出 和 内存泄露

因为 有余 2 ,C 字符串可能会在批改字符串时呈现问题,因为大家晓得内存是间断的,如果我要在字符串前面拼接新的内容,我首先要通过 内存重调配 来扩大底层数组的空间大小。


比方我要在字符串 ’yikun’ 后拼接 ’lucky’,但当初前面紧挨存储的是 ’happy’ 字符串,所以我首先要扩大数组能力拼接 ’lucky’,不然就把 ’happy’ 给笼罩掉,造成缓存区溢出了。

那如果我要缩短 ’yikun’,改成 ’yi’,倒是不必扩大数组。

但我空的这部分又造成内存透露,所以还是须要进行 内存重调配
内存重调配 是个非常耗时的操作,如果下面的字符串批改频繁产生的话,对于性能的影响就会很大。

3. 没方法存储二进制数据

因为 有余 3 ,如果咱们的数据自身就蕴含空字符串 ’\0’,而代码逻辑是大公无私的,会认为是字符串终止的意思;而像图片、音频、视频、压缩文件这样的二进制数据是会蕴含空字符串 ’\0’ 的,所以可想而知,数据会呈现问题,可能只能辨认到后面的局部数据,而失落前面的内容。

所以针对下面的问题,redis 的 SDS 的构造是怎么设计的?

废话不多说,咱们间接来看下 SDS 的构造:

直观来看,SDS 多保护了 free 属性和 len 属性。
len 属性用来记录 buf 数组中已应用字节的数量,同时也等于 SDS 所保留字符串的长度。

而属性 free 是用来记录 buf 数组中未应用字节的数量。

SDS 是如何依附引入两个属性值 len、free 来解决具体问题呢?

1. 获取字符串长度

当初能够间接拜访 len 属性来获取字符串长度,就好比 Java 属性的 get 办法,复杂度由原来的 O(N)一下子降到了 O(1)。
而且这个属性是 SDS 在执行操作时主动实现的,咱们无需进行任何保护。

2. 空间预调配 和 惰性空间开释

下面咱们说内存重调配操作耗时,所以在须要对 SDS 进行空间扩大的时候,会调配额定的未应用空间。

上面是额定调配空间数量的公式:
1. 如果 SDS 批改之后,SDS 的长度 (len 属性的值) 小于 1MB,那么就会调配和 len 属性同样大的未应用空间,也就是 free 属性会和 len 属性雷同,相当于将原数组长度 double。
2. 如果 SDS 批改之后,SDS 的长度 (len 属性的值) 大于或等于 1MB,那么就会调配固定的 1MB 未应用空间。

而 free 属性就决定了是不是须要进行额定的内存重调配操作,如果 free 为 7,而你须要拼接的字符串长度只有 5,那就不须要进行内存重调配操作,间接存储就能够。

free:太好了,我这空座就是给老弟你留的,快坐快坐~

所以针对拼接操作来说,原本 N 次 肯定须要 N 次 的内存重调配操作,当初 最多只须要 N 次
(比方你第一次拼接后,free 就大于后续要拼接的字符串长度之和了,那其实就只有 1 次内存重调配操作,所以说最多 N 次)

缩短操作也是同理,删掉 N 个字符后,我 free 就减少 N,我先不做内存重调配操作,就先给你留着呗,万一你前面又做拼接是不是。

所以总结:拼接时咱们做 空间预调配 ,缩短时咱们做 惰性空间开释 ,都是为了 缩小内存重调配操作

(SDS 其实也提供了响应的办法,在有须要时,能够真正地开释 SDS 的未应用空间,所以不必放心未应用空间会造成内存节约。)

3. 存储二进制数据

C 字符串不能存储二进制数据的起因是只能依据 ’\0’ 来判断数据是否完结,不能保障其完整性,但因为 SDS 的 len 属性,无论你数据里有多少 ’\0’ 都没关系,我是依据 len 属性值来判断数据长度的,必然是残缺的,所以 SDS 能够平安地存储二进制数据。

SDS 你都有 len 了,那为啥还要跟 C 字符串一样在字符串前面加 ’\0’?

这个很好答复,因为 SDS 放弃和 C 字符串一样的个性,就不必专门编写多余的函数了,在肯定的状况下能够间接用 C 语言的函数,防止了不必要的重写。

最初的总结

C 字符串和 SDS 之间的区别:

C 字符串 SDS
获取字符串长度复杂度为 O(N) 获取字符串长度复杂度为 O(1)
批改字符串时须要执行 N 次内存重调配 批改字符串时最多须要执行 N 次内存重调配
不能保留二进制数据 能够保留二进制数据
能够应用 C 字符串函数库的所有函数 能够应用 C 字符串函数库的一部分函数

写在最初的最初

我是苏易困,大家也能够叫我易困,一名 Java 开发界的小学生,文章可能不是很优质,但肯定会很用心。

呜呜呜~ 真是边整顿便有播种,本人学习的能源也增长了起来,还真是那句话:你本人明确,能力跟其他人说明确(也不晓得是不是说明确了),而且写的时候也会思考一些取舍,比方有的货色需不需要标注?有的中央是不是过于啰嗦了?是不是写的太入门了一点?可能这些常识在一些人看来都是很根底很入门甚至不必讲的货色。
但怎么说呢,我的初心其实也就是整顿和梳理本人的常识,如果能帮到你,我会很开心;如果你感觉不够程度,我也会虚心接受;人嘛,总要有个学习的过程,我也会始终致力的~ 大家一起加油~

正文完
 0