关于数据挖掘:星环科技分布式搜索引擎-Transwarp-Scope-查询优化技术解读

概述

分布式数据库系统是物理上散布而逻辑上集中的数据库系统，为了进步性能并最大限度地缩小资源争用，其被宽泛用于海量数据处理的场景中。在这种状况下，数据库查问速度是零碎性能体现的决定性指标。而因为数据分布在不同节点上并通过网络通信在不同节点间传输，分布式查问的解决流程比单机集中式查问更加简单。与传统的集中式数据库系统相比，对分布式查问的构建和优化须要同时思考CPU、I/O老本以及网络通信老本。

本文旨在从分布式集群视角，对Transwarp Scope查问相干原理和优化技术进行较为全面的解读。

整体流程

对于分布式搜索引擎来说，个别状况下，一次查问波及到多台机器的多个分片，正确的后果须要汇总多个分片的各自后果之后能力取得。因而，无论是Transwarp Scope还是es，其查问过程都包含一个Merger的角色存在，这个Merger在es中是Coordinating node, 而在NS中是Client。而整个流程以Phase划分，能够分为DFS, QUERY, FETCH三类Phase。

专用词与明确

分片个别也被成为shard/tablet

Phase简介

DFS Phase:统计数据收集阶段，对于文本信息来说，其在单个text中的freq等信息是精确的。然而相似与idf这样的全局统计信息而言，每个分片只能明确该文本在分片外部的idf，也就是一个部分的idf。如果不进行全局idf综合统计，仅以local idf计算score，得进去的分数是不精确的。所以，在很多对打分后果准确性要求较高的场景下，都会有dfs这个阶段进行全局统计信息汇总。当然，也因为多了这个阶段，相应地响应速度也会受到影响。

Query Phase:查问阶段，依据client输出的信息在各个分片上找到匹配的文档汇合。这一阶段基本上会做3件事件：match（匹配），score(打分），local_sort(本地排序）。各个分片会将匹配的doc_id汇合，返回给Merger节点。Merger节点会对各个分片汇报上来的doc_set进行merge + global_sort。而后依据client设定的from,size, 从global_result_set中cut出[from, from + size]，再进行下一阶段。

Fetch阶段：获取doc原始内容的phase。该Phase会依据Query Phase完结后的global_result_set向各个分片索要指标的doc_set, 包含文档的原始内容以及可能的某些再加工内容，比方Highlight。因为要真正地加载文档内容[source]，所以 Fetch阶段会产生比拟大的io负载（page cache缺失的状况下）。因而，如果是一些大宽表（500列+）的场景，其行数据size比拟大的状况下，更可行的形式其实是把ES/NS作为一张纯正的Index Table，即只对指标列设置索引 + 对表面主键列存储source。如此，当query阶段阶段执行完之后，进行fetch phase的时候只须要加载rowkey这一列的值，再global_result_set中的表面rowkey值去内部行数据库中拿到原始内容，这样做能显著加重es/ns集群的存储和读写压力。

从整体上来看，查问局部根本的架构准则就是用各种不同的Phase拼接执行不同的查问动作，即Compose Phases into Action.如上图示意。

查问操作类型简介

查问操作自身能够依照如上图这样进行细分，各自含意如下表：

点查问图解

点查，或者说排序查问是外围性能，举例如下。

对于一张成绩表schema=(姓名、数学问题、语文问题、英语问题），整张表格有3个tablet, 当初要获取全副问题的前3名，则整体流程如下图所示。

如上图所示，即为单次点查问的原理示意图。在Query阶段，所有Tablet都将本人的数学问题的前3名汇总给Merger, Merger进行全局排序之后，发现真正的前三名是tablet1的11,4号, tablet3的4号。而后在Fetch阶段，将这些对应doc标识发送给tablet1, tablet3, 再拿到对应的文档原始内容，这里有2处细节值得提及。

二维全局rowKey。在上图所示数据分布体系中，用以示意全局惟一row或者doc的标识是一个（tablet, docId)的二元组，及tablet1和tablet3都有doc4, 但2者没有关系。

上图所示是在全局数据自身无序散布的状况下进行排序查问的流程，如果对数据自身就是有序散布的，那么流程会大大简化，这一点会在后续内容中探讨。

分页查问

所谓分页查问，或者扫描，就是当后果集比拟大的时候，分成屡次rpc返回后果。

1.并发分页查问

所谓并发分页，如下图所示，就是client同时向所有的tablet发送request。这种状况下，每一页的具体流程以排序/不排序分能够对应上文点查/轻量点查。

2.程序分页查

所谓程序分页查，如上右图所示，指的是每一页并不是将rpc同时发送给所有tablet, 而是对所有tablet进行一一扫描，tablet1，tablet2，tablet3。这种扫描形式的显著益处就是大幅度缩小了rpc的数量，升高了集群整体负载。又因为每个rpc只有1个tablet的后果，所以也不须要进行多个tablet后果的合并，升高了client的解决负载。

3.动静超分页查问

对于查问操作来说，缓存是很有成果的优化措施。尤其是对一些单线程扫描全表的利用，其客户端内存可能大量闲置。这种场景下，正当地应用客户端内存作为缓存来优化查问速度，就是动静超分页查问的思维，其基本原理仍以是否排序分2种状况探讨。

对于不排序场景，缓存的策略很简略，如上图所示，就是一次rpc取n个整页，放在客户端内存中备用，从第二次之后，间接从本地内存中取用。而为了在保障稳定性的根底上尽可能地放慢scan，对于N这个值采纳二进制试探+回退的形式进行管制。即最开始只取一页，而后是2,4,8,16。在这个过程中，保留Page的均匀大小和曾经应用的内存量，综合jvm内存大小，从而计算出下一次scan最大能拿多少页。从而让N回退，升高client内存压力，保障客户端程序的稳固。在理论应用中，个别会限定客户端jvm_heap的8%作为scan_cache的下限。

此外，为了防止N过大导致提早过长问题，当单次工夫超过肯定阈值的时候，N也会相应回退，防止让客户端感觉到太显著的卡顿。

对于排序场景，缓存不能像no sort场景下这么莽撞。因为排序自身存在一个回收率（1/s)的问题，即前文所提及的，3个shard，取前3名，则实际上须要拿到3×3=9行数据，最终无效返回却是只有3行，所以回收率=1/3。在超大集群场景下，一张大表可能有500+个shard，此时如果贸然地扩充N倍，一次性从server端取回4000-5000个page，很有可能造成client激烈的gc, 影响程序稳固。因而，排序场景下客户端缓存，Transwarp Scope采纳了客户端复用的形式来进行。

如上图所示，续前文所述排序场景下QueryThenFetch的流程，当第一轮Fetch完结之后，真正的全局前三被fetch之后，残余的(图中标红的）T1-doc5, T2-doc11-doc22-doc15和T3-doc32-doc5，肯定是下一轮全局排序的备选项，所以下一轮query阶段并不需要再从每个tablet拿3个了，对于tablet1，只须要再拿2个，tablet3再拿3个，而tablet2则不须要在round2进行query阶段。在超大表的场景下，以500shard, page_size=1000为例，那么98%的row都能够在客户端进行复用，从而大大减少了rpc次数和server端查问排序的开销。当然，理论生产环境中也要思考到rpc_size的问题，配合整页缓存一起应用。

查问优化的根底：分区

分区是最间接无效的查问减速伎俩，尤其是对于超大规模的集群的大表（1000+ shard，单表50T)这样的场景，如果能在查问真正开始之前将搜寻范畴放大到全量数据汇合的1-2%，即10-20shard，500G-1000G这个规模。那么理论体现进去的性能就是百毫秒到秒级级别。

最常见的两种分区机制，是Range分区和Hash分区。

1.Range分区

如上图所示，即为Range分区的基本原理示意图，所有的row, 依照age这一列进行划分partition。当select (14,19)之间的row时，就能够通过partition prune将查问限度在一个tablet1上，从而防止了全表搜寻，大幅度缩小了集群负载。

另外，在排序场景下，如果要获取全局age最大的5个row，那么在已有范畴分区的状况下，只须要对tablet1和tablet2的数据进行排序，填满后果集即可，防止了对Tablet1的有效查问和排序。

又如上图所示，在Range分区的根底上，配合分片外部的预排序，就能够保障整张表格数据的全局有序。此时的升序扫表动作，就转换成了程序顺次扫描每个shard，从而完全避免了分片级别/表级别的排序动作，极大晋升速度。

2.Hash分区

hash分区的即是依据指定列的hash值进行分区，如上图所示，当搜寻age=13的所有row时，因为13的hash值是1，所以搜寻能够被剪枝到tablet1上，从而防止了tablet0, tablet2的有效搜寻。

3.混合分区

分区的实际意义在于，通过对数据进行物理散布上的隔离，从而查问时进行大片的剪枝。在理论应用中，实在数据可能有很多的细化查问需要，须要对数据进行不止一层或一种分区，这就对应了混合分区的概念。

如上图所示，数据选集采纳2层分区进行物理隔离，在shard级别，依照age进行范畴分区。在每个shard外部，再依照rid进行hash分区。那么对于如上图sql, 查问操作能立即通过partiton prune将范畴放大到shard1的P0 Parition上，查问范畴大大放大。

留神，在同一个物理隔离级别上，只能有一个Range分区规范，否则会有歧义导致无奈排序。而Hash分区能够组合多个。

总结

本文别离从客户端和集群的视角，介绍了Transwarp Scope的查问的根本流程、基本原理、实现形式以及不同类型分区对查问速度带来的优化。