关于数据库:为什么要用-Tair-来服务低延时场景-从购物车升级说起

『购物车降级』是往年双十一的重要体验晋升我的项目，体现了大淘宝技术人“用技术冲破消费者和商家体验天花板”的态度。这是一种敢于一直从新自我扫视，而后做出更好抉择的存在主义态度。

「体验晋升」通常体现在以前须要降级的性能不降级，以前不够实时的数据逐步实时，以前调用链路的长耗时逐渐升高——这通常是宏大的系统工程，须要波及到的每一个环节（客户端、利用、中间件、数据库、网络、容器、零碎内核等组件）提供最强的产品能力来撑持。到数据库这个环节，挑战通常是访问量和连接数暴涨的前提下，仍要放弃延时稳固和老本可控。

低延时是这些挑战外面的外围，是内存数据库 Tair 提供的服务实质。在高吞吐、大连接数、热点申请、异样流量、简单计算逻辑、弹性伸缩这些实在场景下保持稳定的低延时，是 Tair 可能在低延时场景被抉择的关键因素。作为往年撑持购物车降级的外围产品，Tair 应用的内存 /SCM 混合存储、程度扩大分区无锁和 SQL 引擎等技术是在撑持十四次双十一的过程中逐步打磨欠缺的，在这些技术的根底上 Tair 应用 Fast Path 执行 SQL、执行器模式及算子适配等技术继续进行服务端优化。本文将围绕 Tair 低延时这一本质特征在构建时所采纳的零碎伎俩，藉此提出更多问题来探讨，进一步打造更弱小的内存数据库。

Tair 在低延时场景下的服务能力

存储引擎的性能是数据库低延时的基石。从性能上看，咱们会关怀存储引擎提供的并发（线程平安、无锁）、事务处理（MVCC、抵触辨认、死锁辨认、操作原子性）、快照（标记数据集状态、升高提早、缩小容量收缩）等能力。这里把并发放到前面阐述，先看单次申请的延时，次要波及到存储介质和数据索引。

作为内存数据库，Tair 在绝大部分场景应用单次访问延时在 ns 级别的内存 / SCM 作为次要的存储介质。以 Table 存储为例，服务端的常驻数据大略能够分为 Tuple（能够认为是表外面的某一行）、String Pool、Index 三局部，这些数据都是寄存在内存 / SCM 中，只有快照和日志会寄存在磁盘上。

除了存储介质的延时，通常咱们还须要关怀的是介质的老本。老本一方面是从硬件上，Tair 是率先采纳 SCM 的云产品，绝对于 DRAM，SCM 的密度更高能反对长久化，且老本更低。下面提到的三局部数据结构中，Tuple 和 String Pool 是次要占用数据的空间，寄存在空间更大的 SCM 上，Index 须要频繁拜访且占用空间更低，寄存在空间较小延时更低的 DRAM 上。

另外一方面是从数据结构下来降低成本，这里的技术手段包含，设计更敌对的数据结构和碎片整顿的机制、进行通明的数据压缩。Tair 中会以 Page 为单位来治理 Tuple，随着数据的删除，每个 Page 会有一些闲暇的 Tuple，存储引擎会依照闲暇率来对 Page 分组，当整体的闲暇率高于肯定阈值（默认是 10%）时，就会试图依据闲暇率进行页的合并。

Tair 目前在应用的索引次要有 HashTable、SkipList、RBTree、RTree、Number Tree、Inverted index 等，别离利用于不同的场景。索引和须要服务的模型是相关联的，比方如果服务的次要模型是 Key-Value，那么主索引应用 HashTable 来达到 O（1）的工夫复杂度，ZSet 波及到数据排序和排名的获取，所以 Zset 应用了一个能够在查找时同时获取 Rank 的 Skiplist 作为索引。排序场景应用 SkipList 作为索引是内存数据库中比拟常见的计划，相较于 BTree 来说，因为没有 Structure Modification，更易于实现并发和无锁，当然，也会减少一些 Footprint。在 Table 存储中，应用 RBTree 作为排序索引，在数据量达到 10k 的场景下，RBTree 可能提供更稳固的拜访延时和更低的内存占用。

在数据库系统中，索引能力的加强还能够让执行器对外裸露更强的算子，比方 Tair 中的 RBTree 提供了疾速计算两个值之间 Count 的能力，对外提供了 IndexCountOperator，这样相似于 Select count(*) from person where age >= 8 and age <= 25 的查问就能够间接应用 IndexCountOperator 来获取后果，无需奢侈地调用 IndexScanOperator -> AggregateOperator 对索引进行扫描才得出后果。

适合的存储介质和索引只是提供低延时的一个前提，要在实在环境提供低延时的内存数据库服务，至多须要经验高吞吐的磨难。方才咱们关注了单个申请的延时，介质的延时和索引操作的工夫复杂度会影响单个申请的延时。如果一个数据库节点须要承当每秒数十万的申请，这些是不够的，数据库节点须要领有良好的并发能力。如果吞吐近一步增长，带来的 CPU、网络耗费曾经超过了单机的极限的时候，比方大促峰值时 Tair 某集群每秒提供了数千万的读，这些读会带来数万兆的网络流量耗费，这时候就须要产品可能反对程度扩大，“凡治众如寡，分数是也”，把申请散落到不同的 Sharding，提供稳固的低提早。

并发是低延时场景一个要害挑战。解法通常分为两种，一种是在存储引擎外部反对更细粒度的锁或者无锁的并发申请；还有一种是在存储引擎内部来进行线程模型的优化，保障某一部分数据（一般来说是一个分区）只被一个线程解决，这样就可能在单线程引擎之上构建出高吞吐的能力。

晚期的版本中，Tair 的锁粒度是实例级别的，锁开销损耗较大。为了晋升单机的解决能力，Tair 引入了 RCU 无锁引擎，实现内存 KV 引擎的无锁化拜访，成倍晋升了内存引擎的性能，相干工作发表在 FAST20 上：《HotRing: A Hotspot-Aware In-Memory Key-Value Store》。

在晋升单机引擎的并发上，SQL 场景应用了另外一种解法，让每一个 Partition 的数据由一个独自的线程来进行解决，这样能在引擎外部通过减少分区达到线性的扩大，而且无需应用后面提到的无锁实现中常会应用的重试步骤。绝对于下面的计划，这种计划的工程难度更低，且可能人造地反对 Serializable 的事务隔离级别，某一特定时刻只有一个事务可能运行在特定的分区上，减少 undo buffer 即能够保障事务的原子性。

然而应用这种形式须要满足一些假如：对每个 Partition 的拜访是平衡的；跨 Partition 的拜访比拟少。如果某个 Partition 存在热点拜访，也就是显著高出其它的 Partition，因为只有一个线程能解决这个 Partition 的数据，很容易造成这个 Parition 的申请沉积；如果呈现跨 Partition 的拜访，就须要在各个 Partition 之间做同步，这样也会造成期待并影响并发性能。目前反对的优惠、购物车场景都是用户维度的，表中的 partition column 都是 buyer_id，所以单个申请根本是针对某一个特定分区的，数据链路不存在跨分区申请。数据统计调用的相似于 Select count() from table 这种申请，因为存储引擎的反对，单分区内能够 O(1) 的工夫返回，所以也不存在问题。当然，对于 delete from table 这种跨分区的写操作，目前会对申请造成秒级抖动，将来会退出 Lazy Free 的解决逻辑，升高对失常申请的影响。

程度扩大是应答高吞吐的无效伎俩之一。程度扩大为分布式系统带来了应答高吞吐的能力，但同时绝对于单节点的零碎而言，也会带来很多挑战，比方：跨节点的申请如何保障事务性；如何弹性地进行节点增减；如何应答节点的生效等。在 Tair 的大部分场景而言，并不存在须要保障跨分区申请的原子性。Tair 的 SQL 引擎也反对跨节点的分布式事务，然而这些分布式事务个别不是惯例的业务拜访，而是运维类的操作。

对于很多零碎而言，分区和节点是 N 对 1 的关系（常见于 Hash 分区），采纳固定的分区数，和动静的节点数是一种常见的解决方案，比如说 Redis Cluster，在这类零碎中，弹性地进行节点增减的问题就转换为如何在节点前进行分区迁徙的问题。也有一些零碎的分区和节点是 1 对 1 的（常见于 Range 分区），比方 HBase，在这类零碎中，弹性伸缩的问题就转换为分区决裂的问题了。

对于节点生效，波及到判活和后续的数据处理两类的问题。对于很多零碎而言，冗余和分片是离开的，比方 Redis Cluster、MongoDB、AnalyticDB Worker，即有一个 HA Group 的概念，HA Group 中的每一个节点，数据是完全一致的。不同零碎解决的时候仍然会有些区别，一些零碎 HA Group 中的某一个节点所有分区都是 Leader，咱们称为 Leader 节点，提供读写服务，其它节点只有冗余数据的同步流量，称为 Follower 节点，比方 Redis Cluster，这类零碎在调度零碎不够成熟的期间，有一个显著的短板就是 Follower 节点所在的机器资源是有空余的，通常是通过奢侈的混布来提供资源的利用率，但也带来了部署上的复杂度，所以在零碎设计的时候就会有这样的考量：能不能在 HA Group 内扩散这些分区的 Leader 呢，于是就有了上面这些零碎。一些零碎 HA Group 的每一个节点都承当局部分区的 Leader，这就是每个节点都会提供读写服务，比方 AnalyticDB Worker。这类有 HA Group 的零碎，判活和后续数据处理个别只在 HA Group 内，即某个节点生效后，会把拜访流量转移到 HA Group 内的其它节点，而后通过下层的调度在 HA Group 内补充新的节点。还是老问题，在调度零碎还不够成熟的期间，补充新的节点也会带来运维的复杂度，那就会有新的考量：能不能逾越 HA Group 的限度，把冗余的个数和零碎内节点的个数解耦呢？于是就有了 Kudu 这类零碎的架构，冗余和分片是交错起来的，某一个节点生效之后，它下面的分区会由核心节点来调度到其它节点。在调度能力十分成熟的明天，数据库系统本身的能力怎么和数据库相干的调度能力想联合，也会给零碎架构带来新的启发。

连接数的限度是一个比拟容易被疏忽的束缚。但在一个实在的零碎中，连接数过多会给零碎带来微小的压力。比如说 Redis，即便在 6.0 反对了多 io 之后，可能反对的连接数也是无限的。而目前间接拜访 Tair 的利用动辄有 100k 规模的容器数目，所以反对超多连接数是一个必选项。其中波及到的技术次要是几方面：a. 进步多线程 io 的能力，目前成熟的网络框架根本都有这个能力；b. 把 io 线程和 worker 线程解耦，这样能够独立加强 worker 的解决能力，防止对 io 产生阻塞，当然这个策略取决于 worker 的工作负载，对于单次解决延时稳固较小的场景，反对无锁并发后，整个链路应用 io 线程解决防止线程切换是更优的计划；c. 轻量化连贯，把关联到连贯上的业务逻辑和 io 性能剥来到，能够更加灵便地做针对性的优化，一些零碎中连贯对资源的耗费较大，一个连贯须要耗费 ~10M 的内存资源，这样连接数就比拟难以扩大了。

当初有了高效的存储引擎和程度扩大，曾经具备了提供低延时和高吞吐服务的能力，然而成为一个强壮地提供低延时的数据库系统还须要可能应答一些异样的场景，比如说某一个分区有热点拜访，比如说某个租户的流量异样对其它租户产生烦扰，比如说某些慢申请耗费了大量的服务资源。本章节将介绍 Tair 是如何解决这些“异样”场景来提供稳固的低延时的。

热点拜访是商品维度、卖家维度的数据经常会遇到的一个挑战，热点计划也是 Tair 可能服务于低延时场景的要害能力。后面讲了程度扩大之后，用户的某个申请就会依据肯定的规定（Hash、Range、List 等）路由到某一个分区上，如果存在热点拜访，就会造成这一个分区的拜访拥塞。解决热点有很多计划，比方二级散列，这种计划对于热点的读写能够做进一步拆分的场景是有用的，比方当初咱们有一个卖家订单表，而后卖家 id 是分区列，则咱们能够再以订单 id 做一次二级散列，解决一个大卖家导致的热点问题；目前淘宝大规模应用的 Tair 的 KV 引擎不满足应用二级散列的前提，一般来说商品的信息映射到 Tair 内就是某一个 Value，更新和读取都是原子的。所以 Tair 目前应用的计划是在一层进行散列，借助于和客户端的交互，将热点数据扩散到集群当中的其它节点，独特来解决这个热点申请，当然这种计划须要利用承受热点在肯定工夫内的提早更新。另外这种计划须要客户端和服务端协同，须要利用降级到对应的客户端能力应用。所以最新的 Tair 热点策略在兼容社区 Redis 的服务时应用了不同的计划，利用可能间接应用任一风行的开源客户端进行拜访，因而须要在服务端提供独立的热点解决能力。目前的 Tair 热点能力是由 Proxy 来提供的，绝对于 Tair 之前的计划，这种计划领有更弱小的弹性和更好的通用性。

服务于多租户的数据库系统，解决资源隔离的问题通常须要对进行容量或者访问量的配额治理来保障 QoS。即便服务于单租户的零碎，也须要在用户有突发异样流量时，保证系统的稳定性，辨认出异样流量进行限度，保障失常流量不受影响，比方 Tair 中对于慢 SQL 辨认和阻断。再退一步，即便面对无奈辨认的异样流量，如果判断申请流量曾经超过了服务的极限，依照失常的行为进行响应会对服务端造成危险，须要进行 Fast Fail，并保障服务端的可用性，达到可用性进攻的目标，比方 Tair 在判断有客户端的 Output Buffer 超过肯定内存阈值之后，就会强制 Kill 掉客户端连贯；在判断目前排队的申请个数或者回包占用的内存超过肯定阈值之后，就会结构一个流控的回包并回复给客户端。

流控个别蕴含以下几局部内容：申请资源耗费的统计，这部分是为流控策略和行为提供数据撑持；流控的触发，个别是给资源耗费设定一个阈值，如果超过阈值就触发；流控的行为，这部分各个系统依据服务的场景会有较大的不同；最初的流控的复原，也是就是资源耗费达到什么状况下解除流控。

经典的 NoSQL 零碎，提供的 API 都是和服务端的解决流程十分耦合的，比如说 Redis 提供了很多 API，光是 List 就有 20 多个接口。在服务端其实很多接口的执行过程中的步骤是比拟相似的，比如说有一些 GenericXXX 的函数定义。咱们再看看个别的 RDBMS 中的解决 SQL 的流程，个别是解析（从 SQL 文本到 AST），而后是优化器编译（把 AST 编译成算子，TableScan、Filter、Aggregate），而后是执行器来执行。类比到 Redis 中，用户传进来的就是 AST，且服务端曾经预约了执行打算，间接执行就行了。如果我想应用 SQL，不想学习这么多 API，同时因为我的拜访场景是比拟固定的，比方进行模板化之后，只有十多种 SQL 语句，且拜访的数据比拟平衡，某一条特定的语句所有的参数用一条特定的索引就足够了，有没有方法在执行过程中省去解析、编译的开销来进步运行的效率？有很多同学可能曾经想到了存储过程。是的，存储过程很多场景是在裁减表达能力，比方多条语句组成的存储过程，须要进行比较复杂的逻辑判断，单条语句存储过程实质上是在灵活性和性能上进行折衷。Tair 所有线上运行的 SQL 都是事后创立存储过程的，这样进行拜访就相似于调用 Redis 的一个 API 了，这是在简单计算逻辑的场景下保障低延时的一种计划。

很多相熟数据库实现的同学对火山执行模型都不生疏，tuple-at-a-time 的执行形式会耗费比拟多的 cpu cycle，对 cache locality 也不太敌对。在剖析场景，通常会引入 code-gen 技术来进行优化，比方 Snowflake、GreenPlum。Tair 中应用 Pipeline 执行模型，应用 Bulk Processing 更适宜目前利用的 TP 场景。应用 Pipeline 执行模型对于算子的设计和执行打算的生成更有挑战，以 Scan 算子为例，Scan 算子中内联了 Filter、Aggregate 和 Projection，Scan 算子自身逻辑比拟多，且在执行打算编译过程须要在逻辑优化阶段进行算子内联的转换。

从最早的 KV 到扩大的 Pkey-Skey-Value，再到 List、Zset，再到反对地理位置的 GIS，再到反对全文索引的 Search 和 Table 构造的 SQL，Tair 早已不再是一个单纯用来存储热数据的缓存，而是可能把更多存储上构建的计算能力不便地提供给业务应用的内存数据库。这一章节介绍内存数据库 Tair 在双十一场景的利用。

提到 MySQL，开发者很容易想到 Table 模型，想到 SQL 查问来进行过滤、排序、聚合等操作；想到 Redis，很容易想到高吞吐、低延时。应用 Redis 来进行读减速的场景，都须要把 MySQL 中数据查问进去之后，序列化到某一个 Value，减速场景间接获取 Value 即可，无需再进行过滤、排序等操作。如果一个读减速的场景不仅须要高吞吐低延时，也须要进行过滤等操作，Redis 还可能满足需要么？更进一步，如果引入读减速的过程中不心愿扭转数据模型，仍然心愿应用表模型，省去模型转换的心智累赘，同时领有高吞吐低延时，撑持 10w 级别的连接数，须要应用什么产品呢？目前优惠查问和购物车的场景的需要形象进去就是这样，这种须要关系型数据库超级只读的场景就须要引入 Tair 的 SQL 引擎，兼有 MySQL 和 Redis 劣势的产品。

历史上双十一因无奈解决销量的实时计算问题对商家产生过很多困扰。为应答 2022 年双十一，Tair 销量计数我的项目应运而生：利用已有的 Tair 非准确“去重计数”算子开发新的“去重求和”算子，解决用户商品销量计数慢而无奈实时取得销量数据的痛点问题。通过对用户的商品订单音讯进行原子地“去重和销量的实时求和”能力，双十一首次做到了“买家订单数不降级”、“商品月销量不降级”两项大促外围体验。同时，利用 Tair-PMem 底座进一步帮忙用户升高应用老本，晋升数据长久化能力。相比于传统的 AP 类数据库，通过开发的独特非准确计算算子，无效升高了单 QPS 的计算成本。

淘菜菜是阿里社区电商对外的对立品牌，卖家维度的优惠券召回作为一个重要的功能模块，须要搜寻零碎满足低成本、实时索引和低提早的搜寻能力。鉴于之前应用的搜寻零碎无奈满足需要，淘菜菜往年双十一首次应用 TairSearch 能力实现卖家维度优惠券召回性能，Tair 以其高效实时的内存索引技术为商家提供更加平滑敌对的操作体验。

TairSearch 是 Tair 自主研发的高性能、低延时、基于内存的实时搜寻个性，岂但加强了 Tair 在实时计算畛域的能力，还和现有的其余数据结构一起为用户提供一站式的数据解决方案。Tair 采纳了和 ElasticSearch（下文称之为 ES）类似的基于 JSON 的查问语法，满足了灵活性的同时还兼容 ES 用户的应用习惯。Tair 除了反对 ES 罕用的分词器，还新增 JIEBA 和 IK 中文分词器，对中文分词更加敌对。Tair 反对丰盛的查问语义和聚合能力，并且反对索引实时更新和部分更新。Tair 能够通过 msearch 计划实现索引的分片和搜寻能力，并通过读写拆散架构实现搜寻性能的程度扩大。

随着同城购业务的衰亡，商户判店场景越来越风行，判店就是商家给本人的一个门店圈进去一个销售范畴，能够是行政区域，也能够是不规则形态，或者依照半径圈选，如果消费者在这个销售范畴内就认为门店对该消费者可售，如果不在生产范畴内则不可售，形象此模型则是：点和多边形蕴含关系的判断。

判店性能示意图同城购判店

传统的判店架构应用 MySQL 或者 PostGis 数据库，尽管其对 GIS 相干能力有业余的反对，API 也比拟齐备，然而因为其自身磁盘存储的个性，查问速度较慢，特地是数据量较大的场景下，产生屡次磁盘读 IO，导致业务查问超时。

新一代判店零碎，依靠 Tair 的 Gis 能力，底层应用 RTree 构造，反对常见的 Contains, Within, Intersects 等关系判断，能够在 ms 级别返回查问数据，目前曾经在淘菜菜、天猫超市、淘鲜达、盒马、同城购等多个业务应用。

TairGis 的新一代判店零碎

双十一主互动场景始终是技术挑战最大的场景之一，一方面参加流动的用户数量大，在流动工夫集中沉闷，带来的大量的拜访申请对数据库层面的冲击尤其微小；另一方面要求流动体验不降级，对延时的要求更高。往年主互动流动 – 猜价格，应用了 Tair 繁多数据库的模式撑持了整个互动流动。在主互动场景中，Tair 作为 KV 数据库撑持简直所有的数据存储和读写，后端无 DB 兜底，是惟一的数据源，除了要求读写的低提早、高并发以外，还要求数据的相对平安无失落。

TairHash 提供的高并发写入能力确保了千万级用户的答案提交顺畅；TairZSet 提供的有序数据结构，帮忙利用在 10s 内计算出千万体量的用户分数排行榜，并撑持疾速查问；带有二级 Key 被动过期的 TairHash 为业务设计复活卡、拉新、锦鲤抽奖等多种玩法提供了不便而弱小的技术撑持。

Tair 曾经在这一类须要低提早、高并发、数据安全、疾速开发的业务场景中体现出了弱小的能力，还将继续谋求更高性能、更易用、更平安。

在产品力上，Tair 提供了远远不止以上围绕着低延时来打造的产品能力，比方数据多正本治理、寰球多活、任意工夫点复原、审计日志等等。同时 Tair 在兼容 Redis 之外，提供了丰盛的数据处理能力和基于不同存储介质的混合引擎来晋升性价比。

2022 年还有一些其它的事件在产生：Tair 的论文发表在数据库畛域顶会 VLDB，云原生内存数据库 Tair 独立产品上线阿里云官网，Tair 全自研 Redis 兼容内核在公共云所有 Region 上线等等。有一些问题，也有很多挑战，还有更多机会。Tair 会将曾经具备的能力建设得更通用，并在新的畛域寻求新的冲破，在更丰盛的低延时场景承当起更重要的责任，为客户发明更多价值。

原文链接

本文为阿里云原创内容，未经容许不得转载。

关于数据库:为什么要用-Tair-来服务低延时场景-从购物车升级说起

低延时的基石

存储介质

索引

低延时的挑战

高并发

程度扩大

超大连接数

稳固的低延时

热点策略

流控

执行流程优化

更多场景的低延时

购物车应用 Tair 撑持容量降级

销量统计应用 Tair 晋升实时计算

淘菜菜应用 Tair 进行卖家优惠券召回

判店场景应用 Tair 解决热点商家判店

互动场景应用 Tair 多种高性能数据结构疾速撑持业务

写在最初

Just My Socks（注册教程内含优惠码）

关于数据库:为什么要用-Tair-来服务低延时场景-从购物车升级说起

低延时的基石

存储介质

索引

低延时的挑战

高并发

程度扩大

超大连接数

稳固的低延时

热点策略

流控

执行流程优化

更多场景的低延时

购物车应用 Tair 撑持容量降级

销量统计应用 Tair 晋升实时计算

淘菜菜应用 Tair 进行卖家优惠券召回

判店场景应用 Tair 解决热点商家判店

互动场景应用 Tair 多种高性能数据结构疾速撑持业务

写在最初

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）