一、背景

在现网环境，一些应用Redis集群的业务随着业务量的上涨，往往须要进行节点扩容操作。

之前有理解到运维同学对一些节点数比拟大的Redis集群进行扩容操作后，业务侧反映集群性能降落，具体表现在拜访时延增长显著。

某些业务对Redis集群拜访时延比拟敏感，例如现网环境对模型实时读取，或者一些业务依赖读取Redis集群的同步流程，会影响业务的实时流程时延。业务侧可能无奈承受。

为了找到这个问题的根因，咱们对某一次的Redis集群迁徙操作后的集群性能降落问题进行排查。

1.1 问题形容

这一次具体的Redis集群问题的场景是：某一个Redis集群进行过扩容操作。业务侧应用Hiredis-vip进行Redis集群拜访，进行MGET操作。

业务侧感知到拜访Redis集群的时延变高。

1.2 现网环境阐明

目前现网环境部署的Redis版本少数是3.x或者4.x版本;
业务拜访Redis集群的客户端品类繁多，较多的应用Jedis。本次问题排查的业务应用客户端Hiredis-vip进行拜访;
Redis集群的节点数比拟大，规模是100+;
集群之前存在扩容操作。

1.3 察看景象

因为时延变高，咱们从几个方面进行排查：

带宽是否打满；
CPU是否占用过高；
OPS是否很高；

通过简略的监控排查，带宽负载不高。然而发现CPU体现异样：

1.3.1 比照OPS和CPU负载

察看业务反馈应用的MGET和CPU负载，咱们找到了对应的监控曲线。

从工夫上剖析，MGET和CPU负载高并没有间接关联。业务侧反馈的是MGET的时延广泛增高。此处看到MGET的OPS和CPU负载是错峰的。

此处能够临时确定业务申请和CPU负载临时没有间接关系，然而从曲线上能够看出：在同一个时间轴上，业务申请和cpu负载存在错峰的状况，两者间应该有间接关系。

1.3.2 比照Cluster指令OPS和CPU负载

因为之前有运维侧共事有反馈集群进行过扩容操作，必然存在slot的迁徙。

思考到业务的客户端个别都会应用缓存寄存Redis集群的slot拓扑信息，因而狐疑Cluster指令会和CPU负载存在肯定分割。

咱们找到了当中的确有一些分割：

此处能够显著看到：某个实例在执行Cluster指令的时候，CPU的应用会显著上涨。

根据上述景象，大抵能够进行一个简略的聚焦：

业务侧执行MGET，因为一些起因执行了Cluster指令；
Cluster指令因为一些起因导致CPU占用较高影响其余操作；
狐疑Cluster指令是性能瓶颈。

同时，引申几个须要关注的问题：

为什么会有较多的Cluster指令被执行？

为什么Cluster指令执行的时候CPU资源比拟高？

为什么节点规模大的集群迁徙slot操作容易“中招”？

二、问题排查

2.1 Redis热点排查

咱们对一台现场呈现了CPU负载高的Redis实例应用perf top进行简略的剖析：

从上图能够看进去，函数（ClusterReplyMultiBulkSlots）占用的CPU资源高达 51.84%，存在异样。

2.1.1 ClusterReplyMultiBulkSlots实现原理

咱们对clusterReplyMultiBulkSlots函数进行剖析：

void clusterReplyMultiBulkSlots(client *c) {
    /* Format: 1) 1) start slot
     *            2) end slot
     *            3) 1) master IP
     *               2) master port
     *               3) node ID
     *            4) 1) replica IP
     *               2) replica port
     *               3) node ID
     *           ... continued until done
     */
 
    int num_masters = 0;
    void *slot_replylen = addDeferredMultiBulkLength(c);
 
    dictEntry *de;
    dictIterator *di = dictGetSafeIterator(server.cluster->nodes);
    while((de = dictNext(di)) != NULL) {
        /*留神：此处是对以后Redis节点记录的集群所有主节点都进行了遍历*/
        clusterNode *node = dictGetVal(de);
        int j = 0, start = -1;
 
        /* Skip slaves (that are iterated when producing the output of their
         * master) and  masters not serving any slot. */
        /*跳过备节点。备节点的信息会从主节点侧获取。*/
        if (!nodeIsMaster(node) || node->numslots == 0) continue;
        for (j = 0; j < CLUSTER_SLOTS; j++) {
            /*留神：此处是对以后节点中记录的所有slot进行了遍历*/
            int bit, i;
            /*确认以后节点是不是占有循环终端的slot*/
            if ((bit = clusterNodeGetSlotBit(node,j)) != 0) {
                if (start == -1) start = j;
            }
            /*简略剖析，此处的逻辑大略就是找出间断的区间，是的话放到返回中；不是的话持续往下递归slot。
              如果是开始的话，开始一个间断区间，直到和以后的不间断。*/
            if (start != -1 && (!bit || j == CLUSTER_SLOTS-1)) {
                int nested_elements = 3; /* slots (2) + master addr (1). */
                void *nested_replylen = addDeferredMultiBulkLength(c);
 
                if (bit && j == CLUSTER_SLOTS-1) j++;
 
                /* If slot exists in output map, add to it's list.
                 * else, create a new output map for this slot */
                if (start == j-1) {
                    addReplyLongLong(c, start); /* only one slot; low==high */
                    addReplyLongLong(c, start);
                } else {
                    addReplyLongLong(c, start); /* low */
                    addReplyLongLong(c, j-1);   /* high */
                }
                start = -1;
 
                /* First node reply position is always the master */
                addReplyMultiBulkLen(c, 3);
                addReplyBulkCString(c, node->ip);
                addReplyLongLong(c, node->port);
                addReplyBulkCBuffer(c, node->name, CLUSTER_NAMELEN);
 
                /* Remaining nodes in reply are replicas for slot range */
                for (i = 0; i < node->numslaves; i++) {
                    /*留神：此处遍历了节点上面的备节点信息，用于返回*/
                    /* This loop is copy/pasted from clusterGenNodeDescription()
                     * with modifications for per-slot node aggregation */
                    if (nodeFailed(node->slaves[i])) continue;
                    addReplyMultiBulkLen(c, 3);
                    addReplyBulkCString(c, node->slaves[i]->ip);
                    addReplyLongLong(c, node->slaves[i]->port);
                    addReplyBulkCBuffer(c, node->slaves[i]->name, CLUSTER_NAMELEN);
                    nested_elements++;
                }
                setDeferredMultiBulkLength(c, nested_replylen, nested_elements);
                num_masters++;
            }
        }
    }
    dictReleaseIterator(di);
    setDeferredMultiBulkLength(c, slot_replylen, num_masters);
}
 
/* Return the slot bit from the cluster node structure. */
/*该函数用于判断指定的slot是否属于以后clusterNodes节点*/
int clusterNodeGetSlotBit(clusterNode *n, int slot) {
    return bitmapTestBit(n->slots,slot);
}
 
/* Test bit 'pos' in a generic bitmap. Return 1 if the bit is set,
 * otherwise 0. */
/*此处流程用于判断指定的的地位在bitmap上是否为1*/
int bitmapTestBit(unsigned char *bitmap, int pos) {
    off_t byte = pos/8;
    int bit = pos&7;
    return (bitmap[byte] & (1<<bit)) != 0;
}
typedef struct clusterNode {
    ...
    /*应用一个长度为CLUSTER_SLOTS/8的char数组对以后调配的slot进行记录*/
    unsigned char slots[CLUSTER_SLOTS/8]; /* slots handled by this node */
    ...
} clusterNode;

每一个节点（ClusterNode）应用位图（char slots[CLUSTER_SLOTS/8]）寄存slot的调配信息。

简要说一下BitmapTestBit的逻辑：clusterNode->slots是一个长度为CLUSTER\_SLOTS/8的数组。CLUSTER\_SLOTS是固定值16384。数组上的每一个位别离代表一个slot。此处的bitmap数组下标则是0到2047，slot的范畴是0到16383。

因为要判断pos这个地位的bit上是否是1，因而：

off_t byte = pos/8：拿到在bitmap上对应的哪一个字节（Byte）上寄存这个pos地位的信息。因为一个Byte有8个bit。应用pos/8能够领导须要找的Byte在哪一个。此处把bitmap当成数组解决，这里对应的便是对应下标的Byte。
int bit = pos&7：拿到是在这个字节上对应哪一个bit示意这个pos地位的信息。&7其实就是%8。能够设想对pos每8个一组进行分组，最初一组（不满足8)的个数对应的便是在bitmap对应的Byte上对应的bit数组下标地位。
(bitmap[byte] & (1<<bit))：判断对应的那个bit在bitmap[byte]上是否存在。

以slot为10001进行举例：

因而10001这个slot对应的是下标1250的Byte,要校验的是下标1的bit。

对应在ClusterNode->slots上的对应地位：

图示绿色的方块示意bitmap[1250]，也就是对应寄存slot 10001的Byte；红框标识（bit[1]）对应的就是1<<bit 的地位。bitmap[byte] & (1<<bit)，也就是确认红框对应的地位是否是1。是的话示意bitmap上10001曾经打标。

总结ClusterNodeGetSlotBit的概要逻辑是：判断以后的这个slot是否调配在以后node上。因而ClusterReplyMultiBulkSlots大略逻辑示意如下：

大略步骤如下：

对每一个节点进行遍历；
对于每一个节点，遍历所有的slots，应用ClusterNodeGetSlotBit判断遍历中的slot是否调配于以后节点；

从获取CLUSTER SLOTS指令的后果来看，能够看到，复杂度是<集群主节点个数> *<slot总个数>。其中slot的总个数是16384，固定值。

2.1.2 Redis热点排查总结

就目前来看，CLUSTER SLOTS指令时延随着Redis集群的主节点个数，线性增长。而这次咱们排查的集群主节点数比拟大，能够解释这次排查的现网景象中CLUSTER SLOTS指令时延为何较大。

2.2 客户端排查

理解到运维同学们存在扩容操作，扩容实现后必然波及到一些key在拜访的时候存在MOVED的谬误。

以后应用的Hiredis-vip客户端代码进行简略的浏览，简要剖析以下以后业务应用的Hiredis-vip客户端在遇到MOVED的时候会怎么解决。因为其余的大部分业务罕用的Jedis客户端，此处也对Jedis客户端对应流程进行简略剖析。

2.2.1 Hiredis-vip对MOVED解决实现原理

Hiredis-vip针对MOVED的操作：

查看Cluster\_update\_route的调用过程：

此处的cluster\_update\_route\_by\_addr进行了CLUSTER SLOT操作。能够看到，当获取到MOVED报错的时候，Hiredis-vip会从新更新Redis集群拓扑构造，有上面的个性：

因为节点通过ip:port作为key，哈希形式一样，如果集群拓扑相似，多个客户端很容易同时到同一个节点进行拜访；
如果某个节点拜访失败，会通过迭代器找下一个节点，因为上述的起因，多个客户端很容易同时到下一个节点进行拜访。

2.2.2 Jedis对MOVED解决实现原理

对Jedis客户端代码进行简略浏览，发现如果存在MOVED谬误，会调用renewSlotCache。

持续看renewSlotCache的调用，此处能够确认:Jedis在集群模式下在遇到MOVED的报错时候，会发送Redis命令CLUSTER SLOTS,从新拉取Redis集群的slot拓扑构造。

2.2.3 客户端实现原理小结

因为Jedis是Java的Redis客户端，Hiredis-vip是c++的Redis客户端，能够简略认为这种异样解决机制是共性操作。

对客户端集群模式下对MOVED的流程梳理大略如下：

总的来说：

1）应用客户端缓存的slot拓扑进行对key的拜访；

2）Redis节点返回失常：

拜访失常，持续后续操作

3）Redis节点返回MOVED：

对Redis节点进行CLUSTER SLOTS指令执行，更新拓扑；
应用新的拓扑对key从新拜访。

2.2.3 客户端排查小结

Redis集群正在扩容，也就是必然存在一些Redis客户端在拜访Redis集群遇到MOVED，执行Redis指令CLUSTER SLOTS进行拓扑构造更新。

如果迁徙的key命中率高，CLUSTER SLOTS指令会更加频繁的执行。这样导致的后果是迁徙过程中Redis集群会继续被客户端执行CLUSTER SLOTS指令。

2.3 排查小结

此处，联合Redis侧的CLUSTER SLOTS机制以及客户端对MOVED的解决逻辑，能够解答之前的几个个问题：

为什么会有较多的Cluster指令被执行？

因为产生过迁徙操作，业务拜访一些迁徙过的key会拿到MOVED返回，客户端会对该返回从新拉取slot拓扑信息，执行CLUSTER SLOTS。

为什么Cluster指令执行的时候CPU资源比拟高？

剖析Redis源码，发现CLUSTER SLOT指令的工夫复杂度和主节点个数成正比。业务以后的Redis集群主节点个数比拟多，天然耗时高，占用CPU资源高。

为什么节点规模大的集群迁徙slot操作容易“中招”？

迁徙操作必然带来一些客户端拜访key的时候返回MOVED；
客户端对于MOVED的返回会执行CLUSTER SLOTS指令；
CLUSTER SLOTS指令随着集群主节点个数的减少，时延会回升；
业务的拜访在slot的迁徙期间会因为CLUSTER SLOTS的时延回升，在内部的感知是执行指令的时延升高。

三、优化

3.1 现状剖析

依据目前的状况来看，客户端遇到MOVED进行CLUSTER SLOTS执行是失常的流程，因为须要更新集群的slot拓扑构造进步后续的集群拜访效率。

此处流程除了Jedis，Hiredis-vip，其余的客户端应该也会进行相似的slot信息缓存优化。此处流程优化空间不大，是Redis的集群拜访机制决定。

因而对Redis的集群信息记录进行剖析。

3.1.1 Redis集群元数据分析

集群中每一个Redis节点都会有一些集群的元数据记录，记录于server.cluster，内容如下：

typedef struct clusterState {
    ...
    dict *nodes;          /* Hash table of name -> clusterNode structures */
    /*nodes记录的是所有的节点，应用dict记录*/
    ...
    clusterNode *slots[CLUSTER_SLOTS];/*slots记录的是slot数组，内容是node的指针*/
    ...
} clusterState;

如2.1所述，原有逻辑通过遍历每个节点的slot信息取得拓扑构造。

3.1.2 Redis集群元数据分析

察看CLUSTER SLOTS的返回后果：

/* Format: 1) 1) start slot
 *            2) end slot
 *            3) 1) master IP
 *               2) master port
 *               3) node ID
 *            4) 1) replica IP
 *               2) replica port
 *               3) node ID
 *           ... continued until done
 */

联合server.cluster中寄存的集群信息，笔者认为此处能够应用server.cluster->slots进行遍历。因为server.cluster->slots曾经在每一次集群的拓扑变动失去了更新，保留的是节点指针。

3.2 优化计划

简略的优化思路如下：

对slot进行遍历，找出slot中节点是间断的块；
以后遍历的slot的节点如果和之前遍历的节点统一，阐明目前拜访的slot和后面的是在同一个节点下，也就是是在某个节点下的“间断”的slot区域内；
以后遍历的slot的节点如果和之前遍历的节点不统一，阐明目前拜访的slot和后面的不同，后面的“间断”slot区域能够进行输入；而以后slot作为下一个新的“间断”slot区域的开始。

因而只有对server.cluster->slots进行遍历，能够满足需要。简略示意大略如下：

这样的工夫复杂度升高到<slot总个数>。

3.3 实现

优化逻辑如下：

void clusterReplyMultiBulkSlots(client * c) {
    /* Format: 1) 1) start slot
     *            2) end slot
     *            3) 1) master IP
     *               2) master port
     *               3) node ID
     *            4) 1) replica IP
     *               2) replica port
     *               3) node ID
     *           ... continued until done
     */
    clusterNode *n = NULL;
    int num_masters = 0, start = -1;
    void *slot_replylen = addReplyDeferredLen(c);
 
    for (int i = 0; i <= CLUSTER_SLOTS; i++) {
        /*对所有slot进行遍历*/
        /* Find start node and slot id. */
        if (n == NULL) {
            if (i == CLUSTER_SLOTS) break;
            n = server.cluster->slots[i];
            start = i;
            continue;
        }
 
        /* Add cluster slots info when occur different node with start
         * or end of slot. */
        if (i == CLUSTER_SLOTS || n != server.cluster->slots[i]) {
            /*遍历主节点上面的备节点，增加返回客户端的信息*/
            addNodeReplyForClusterSlot(c, n, start, i-1);
            num_masters++;
            if (i == CLUSTER_SLOTS) break;
            n = server.cluster->slots[i];
            start = i;
        }
    }
    setDeferredArrayLen(c, slot_replylen, num_masters);
}

通过对server.cluster->slots进行遍历，找到某个节点下的“间断”的slot区域，一旦后续不间断，把之前的“间断”slot区域的节点信息以及其备节点信息进行输入，而后持续下一个“间断”slot区域的查找于输入。

四、优化后果比照

对两个版本的Redis的CLUSTER SLOTS指令进行横向比照。

4.1 测试环境&压测场景

操作系统：manjaro 20.2

硬件配置：

CPU：AMD Ryzen 7 4800H
DRAM：DDR4 3200MHz 8G*2

Redis集群信息：

1）长久化配置

敞开aof
敞开bgsave

2）集群节点信息：

节点个数：100
所有节点都是主节点

压测场景：

应用benchmark工具对集群单个节点继续发送CLUSTER SLOTS指令；
对其中一个版本压测完后，回收集群，重新部署后再进行下一轮压测。

4.2 CPU资源占用比照

perf导出火焰图。原有版本：

优化后：

能够显著看到，优化后的占比大幅度降落。根本合乎预期。

4.3 耗时比照

在上进行测试，嵌入耗时测试代码：

else if (!strcasecmp(c->argv[1]->ptr,"slots") && c->argc == 2) {
        /* CLUSTER SLOTS */
        long long now = ustime();
        clusterReplyMultiBulkSlots(c);
        serverLog(LL_NOTICE,
            "cluster slots cost time:%lld us", ustime() - now);
    }

输出日志进行比照；

原版的日志输入：

37351:M 06 Mar 2021 16:11:39.313 * cluster slots cost time:2061 us。

优化后版本日志输入：

35562:M 06 Mar 2021 16:11:27.862 * cluster slots cost time:168 us。

从耗时上看降落显著：从2000+us 降落到200-us；在100个主节点的集群中的耗时缩减到原来的8.2%；优化后果根本合乎预期。

五、总结

这里能够简略形容下文章上述的动作从而得出的这样的一个论断：性能缺点。

简略总结下上述的排查以及优化过程：

Redis大集群因为CLUSTER命令导致某些节点的拜访提早显著；
应用perf top指令对Redis实例进行排查，发现clusterReplyMultiBulkSlots命令占用CPU资源异样；
对clusterReplyMultiBulkSlots进行剖析，该函数存在显著的性能问题；
对clusterReplyMultiBulkSlots进行优化，性能晋升显著。

从上述的排查以及优化过程能够得出一个论断：目前的Redis在CLUSTER SLOT指令存在性能缺点。

因为Redis的数据分片机制，决定了Redis集群模式下的key拜访办法是缓存slot的拓扑信息。优化点也只能在CLUSTER SLOTS动手。而Redis的集群节点个数个别没有这么大，问题裸露的不显著。

其实Hiredis-vip的逻辑也存在肯定问题。如2.2.1所说，Hiredis-vip的slot拓扑更新办法是遍历所有的节点挨个进行CLUSTER SLOTS。如果Redis集群规模较大而且业务侧的客户端规模较多，会呈现连锁反应：

1）如果Redis集群较大，CLUSTER SLOTS响应比较慢；

2）如果某个节点没有响应或者返回报错，Hiredis-vip客户端会对下一个节点持续进行申请；

3）Hiredis-vip客户端中对Redis集群节点迭代遍历的办法雷同（因为集群的信息在各个客户端基本一致），此时当客户端规模较大的时候，某个Redis节点可能存在阻塞，就会导致hiredis-vip客户端遍历下一个Redis节点；

4）大量Hiredis-vip客户端挨个地对一些Redis节点进行拜访，如果Redis节点无奈累赘这样的申请，这样会导致Redis节点在大量Hiredis-vip客户端的“遍历”下挨个申请：

联合上述第3点，能够设想一下：有1w个客户端对该Redis集群进行拜访。因为某个命中率较高的key存在迁徙操作，所有的客户端都须要更新slot拓扑。因为所有客户端缓存的集群节点信息雷同，因而遍历各个节点的程序是统一的。这1w个客户端都应用同样的程序对集群各个节点进行遍历地操作CLUSTER SLOTS。因为CLUSTER SLOTS在大集群中性能较差，Redis节点很容易会被大量客户端申请导致不可拜访。Redis节点会依据遍历程序顺次被大部分的客户端（例如9k+个客户端）拜访，执行CLUSTER SLOTS指令，导致Redis节点挨个被阻塞。

5）最终的体现是大部分Redis节点的CPU负载暴涨，很多Hiredis-vip客户端则持续无奈更新slot拓扑。

最终后果是大规模的Redis集群在进行slot迁徙操作后，在大规模的Hiredis-vip客户端拜访下业务侧感知是一般指令时延变高，而Redis实例CPU资源占用低落。这个逻辑能够进行肯定优化。

目前上述分节3的优化曾经提交并合并到Redis 6.2.2版本中。

六、参考资料

1、Hiredis-vip: https://github.com

2、Jedis: https://github.com/redis/jedis

3、Redis: https://github.com/redis/redis

4、Perf：https://perf.wiki.kernel.org

作者：vivo互联网数据库团队—Yuan Jianwei

关于数据库:Redis大集群扩容性能优化实践

一、背景

1.1 问题形容

1.2 现网环境阐明

1.3 察看景象

1.3.1 比照OPS和CPU负载

1.3.2 比照Cluster指令OPS和CPU负载

二、问题排查

2.1 Redis热点排查

2.1.1 ClusterReplyMultiBulkSlots实现原理

2.1.2 Redis热点排查总结

2.2 客户端排查

2.2.1 Hiredis-vip对MOVED解决实现原理

2.2.2 Jedis对MOVED解决实现原理

2.2.3 客户端实现原理小结

2.2.3 客户端排查小结

2.3 排查小结

三、优化

3.1 现状剖析

3.1.1 Redis集群元数据分析

3.1.2 Redis集群元数据分析

3.2 优化计划

3.3 实现

四、优化后果比照

4.1 测试环境&压测场景

4.2 CPU资源占用比照

4.3 耗时比照

五、总结

六、参考资料

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据库:Redis大集群扩容性能优化实践

一、背景

1.1 问题形容

1.2 现网环境阐明

1.3 察看景象

1.3.1 比照OPS和CPU负载

1.3.2 比照Cluster指令OPS和CPU负载

二、问题排查

2.1 Redis热点排查

2.1.1 ClusterReplyMultiBulkSlots实现原理

2.1.2 Redis热点排查总结

2.2 客户端排查

2.2.1 Hiredis-vip对MOVED解决实现原理

2.2.2 Jedis对MOVED解决实现原理

2.2.3 客户端实现原理小结

2.2.3 客户端排查小结

2.3 排查小结

三、优化

3.1 现状剖析

3.1.1 Redis集群元数据分析

3.1.2 Redis集群元数据分析

3.2 优化计划

3.3 实现

四、优化后果比照

4.1 测试环境&压测场景

4.2 CPU资源占用比照

4.3 耗时比照

五、总结

六、参考资料

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复