共计 9716 个字符,预计需要花费 25 分钟才能阅读完成。
常识是永远的流行色!
码友们,点赞再看,养成好习惯~
一:存储模式
留言或私信我,邀请你退出“图数据库交换”微信群!
1、图内容
本文以下所有内容基于:JanusGraph 基于 属性图
来进行结构图数据:
属性图: 属性图是由 顶点(Vertex),边(Edge),属性(Property)组成的有向图
Vertex 能够蕴含 Properties;Edge 也能够蕴含 Properties;
2、存储办法
图存储的形式罕用的有两种:邻接列表
和 邻接矩阵
JanusGraph 采纳 邻接列表
进行图数据的存储,如下图所示:(此处将图中节点形象为 只有节点,没有属性)
在 Janusgraph 中一个顶点的邻接列表蕴含该节点对应的 属性
和关联的边
,下述会具体阐明 Janusgraph 中邻接列表是如何实现的;
3、图切割形式
图的切割形式分为两种:按节点切割 (Vertex Cut)
和按边切割(Edge Cut)
- Vertex Cut:依据点进行切割,每个边只存储一次,只有是节点对应的边便会多一份该节点的存储
- Edge Cut:依据边进行切割,以节点为核心,边会存储两次,源节点的邻接列表存储一次,指标节点的邻接列表存储一次
在 Janusgraph 中既存在 Edge Cut,也存在 Vertex Cut 的状况;
在默认的状况下应用 边切割
,而针对 热点
节点能够通过配置 makeVertexLabel('product').partition()
来将节点类型为 product
类型的节点进行Vertex Cut
;
也就是说,在没有上述 makeVertexLabel('product').partition()
配置的话,JanusGraph 所有的图数据都是以 Edge Cut
的形式来进行切割存储的;
具体能够查看文章:《JanusGraph- 分区》中自定义分区局部中对于图切割局部的介绍;
咱们例子来阐明一下:
如下图:张三
用户节点通过 手机号
关联进去 李四
用户节点
- 张三 和 李四 代表 Vertex;指向的 name、age、gender 代表张三的属性
- edgeA 和 edgeB 代表 Edge;也能够蕴含边的属性,例如下图中边蕴含属性 create_time
按边切割后:
节点 | ||||
---|---|---|---|---|
张三 | name(property) | age(property) | gender(property) | edgeA(edge) |
phone | phone(property) | edgeA(edge) | edgeB(edge) | |
李四 | name(property) | age(property) | gender(property) | edgeB(edge) |
上述能够看到,依照边切割后每一条边会存储两次!
二:BigTable 模型
在 JanusGraph 的存储中,JanusGraph 将图形的邻接列表的示意存储在反对 Bigtable 数据模型的任何存储后端中
BigTable 模型如下图:
在 Bigtable 数据模型中,每个表是行的汇合,由一个 key 惟一标识。
每行由任意(能够很大数量然而必须无限数量)数量的 cell 组成;cell 由 column 和 value 组成,column 惟一标识某一个 cell。
上述图中,有两局部须要排序的反对:sorted by key
和 sorted by column
:
- sorted by key:标识存储后端存储的数据时依照 key 的大小进行排序存储的
- sorted by column:这是 JanusGraph 对 Bigtable 数据模型有一个额定要求,存储
edge(边)
的单元格必须按 column 排序,并且列范畴指定的单元格子集必须是无效可检索的;这句话具体解答在下述文章中有体现
在 Bigtable 模型中的行称为“宽行”,因为它们反对大量 cell,并且不用像关系数据库中那样事后定义这些 cell 的 column。
在关系型数据库中咱们必须先定义好表的 schema,才能够存储数据,如果存储过程中想要扭转表构造,则所有的数据都要对变动的列做出变动。然而 Bigtable 模型存储中就不用如此,每个行的 column 不同,咱们能够随时仅对某一行进行变动,也不许事后定义行的 schema,只须要定义图的 schema 即可。
此外,特定的 Bigtable 实现能够使行按其键的程序排序。JanusGraph 能够利用这样的键序来无效地划分图形,从而为十分大的图形提供更好的加载和遍历性能。
JanusGraph 是如何基于 BigTable 数据模型针对于本身的图数据个性进行设计的呢?
上面咱们看下 JanusGraph 的逻辑存储构造
三:存储逻辑构造
JanusGraph 基于应用 BigTable 模型的存储后端 实现了本人的存储的逻辑构造
ps:为了更好的了解,上面局部知识点会基于 HBase 存储后端进行进一步的解释!
1、整体构造
在 JanusGraph 中,以节点为核心,按切边的形式存储数据的。比方在 Hbase 中节点的 ID 作为 HBase 的 Rowkey,节点上的每一个属性和每一条边,作为该 Rowkey 行的一个个独立的 Cell。即每一个属性、每一条边,都是一个个独立的 KCV 构造(Key-Column-Value)
上图中,咱们能够发现图的存储整体分为三局部:vertex id
、property
、edge
:
- vertex id: 对应节点的惟一 id,如果底层存储应用的是 Hbase 则代表着以后行的 Rowkey,惟一代表某一个节点
- property: 代表节点的属性
- edge: 代表节点的对应的边
排序形式分为三种:sorted by id
、sorted by type
、sorted by sort key
:
- sorted by id: 根据 vertex id 在存储后端进行顺序存储
- sorted by type:此处的集体了解为针对于 property 和 edge 的类型进行排序,保障同种类型的属性或者边间断存储在一块便于遍历查找;// TODO 深层次了解
- sorted by sort key: sort key 是边组成以的一部分,次要作用是,在同种类型的 edge 下,针对于 sort key 进行排序存储,晋升针对于指定 sort key 的检索速度;上面
edge 构造
局部有具体介绍
2、Vertex id 的构造
此处的 Vertex id
惟一标识图中的某一个节点;节点 vertex id 的组成构造咱们在源码类 IDManager
的一段正文中能够发现:
/* --- JanusGraphElement id bit format ---
* [0 | count | partition | ID padding (if any) ]
*/
这是在 Janusgraph 在生成所有的 id 时对立的格局蕴含 vertex idedge idproperty id 的时候,这个程序也 就是标识咱们再应用 gremlin 查问出节点时,节点上标识的 vertex id;这个 id 值的程序不同于 hbase 实在存储 Rowkey 的程序!!!!!!!
在对 vertex id 进行序列化存储时,地位有所调整为:[partition | 0 | count | ID padding (if any) ]
如下图:
从图中能够看出:
- Vertex ID 共蕴含一个字节、8 位、64 个 bit
- Vertex ID 由 partition id、count、ID padding 三局部组成
- 最高位 5 个 bit 是 partition id。partition 是 JanusGraph 形象出的一个概念。当 Storage Backend 是 HBase 时,JanusGraph 会依据 partition 数量,主动计算并配置各个 HBase Region 的 split key,从而将各个 partition 平均映射到 HBase 的多个 Region 中。而后通过平均调配 partition id 最终实现数据平均打散到 Storage Backend 的多台机器中
- 两头的 count 局部是流水号,其中最高位比特固定为 0;进来最高位默认的 0,count 的最大值为 2 的(64-5-1-3)=55 次幂大小:3 6028 7970 1896 3968,总共能够生成 30000 兆个 id,齐全满足节点的生成
- 最初几个 bit 是 ID padding, 示意 Vertex 的类型。具体的位数长度依据不同的 Vertex 类型而不同。最罕用的一般 Vertex,其值为 ’000′
为什么在序列化存储 vertex id
时,须要调整程序序列化作为 RowKey 存储到 Hbase 呢?
咱们通过上面的 3 个问题来答复:
- 为什么 JausGraph 调配的逻辑区间值,能够影响 hbase 物理存储呢?能够将分区雷同的数据寄存的更近呢?
在上述形容中,hbase 应用 vertex id 作为 rowkey,hbase 依据 rowkey 程序排序存储;每个
hbase region
存储是一段间断的 Rowkey 行;在
janusgraph 的 vertex id
的设计中,能够发现将分区值放到了 64 位的前 5 位存储!在存储数据到 hbase 时,对 rowkey 进行排序,因为partition id
在前 5 位,所以同一个分区的vertex id
对应的 rowkey 值相差较小,所以会存储在一块;
- 如何疾速的查问到不同类型的节点呢?换个说法如何疾速的确定以后的行就是咱们须要的节点类型的行呢?
在 JanusGraph 的 vertex id 中蕴含的 ID padding 就代表以后的节点类型(留神此处的类型!=lable)。000 标识为一般节点,在 id 的组成部分中,咱们通过后面的剖析,最后面是 partition id,只有把 ID padding 放在最初几个字节便于查找了;
- 为什么查问出的节点显示的 vertex id 要把
0|count
放在最后面、partiton 和 id padding
放在前面呢?
这里咱们猜想一下:count 占用 55 位数据!试想如果把 count 不放在最后面,那么 id 的最小值比 2 的 55 次幂还大,显示不敌对!如果把 0 |count 放在最后面呢?就会有两个成果:
0 在有符号示意中标识以后 id 始终为正整数!
count 是趋势递增的,所以 id 值也是从小到大趋势递增的,所以节点 id 的最小值在 2 的 8 次幂周边大小;比把 count 放在前面显示的 id 值敌对多了~~~
vertex id 是如何保障全局唯一性的呢?
次要是基于 数据库 + 号段
模式进行分布式 id 的生成;
体现在图中就是 partition id + count
来保障分布式全局唯一性;针对不同的partition
都有本人的 0 - 2 的 55 次幂的范畴的 id;每次要生成 vertex id 时,首先获取一个 partition,获取对应 partition 对应的一组还未应用的 id,用来做 count;
janusgraph 在底层存储中存储了对应的 partition 应用了多少 id,从而保障了再生成新的分布式 vertex id 时,不会反复生成!
ps:JanusGraph 中分布式惟一 vertex id、edge id、property id 的生成剖析,请看《图解 JanusGraph 系列 - 分布式惟一 id 的生成机制》
3、edge 和 property 的构造
在上述的 JanusGraph 的整体构造中,property
和 edge
都是作为 cell
存储在底层存储中;其中 cell 又分为 column
和value
两局部,下图展现了这两局部的逻辑构造:
上面咱们详细分析一下 property 和 edge 对应的逻辑构造;
3.1 edge 的构造
Edge 的 Column 组成部分:
- label id:边类型代表的 id,在创立图 schema 的时候 janusgraph 主动生成的 label id,不同于边生成的惟一全局 id
- direction:图的方向,out:0、in:1
-
sort key:能够指定边的属性为 sort key,可多个;在同种类型的 edge 下,针对于 sort key 进行排序存储,晋升针对于指定 sort key 的检索速度;
- 该 key 中应用的关系类型必须是属性非惟一键或非惟一单向边标签;
- 存储的为配置属性的 value 值,可多个(只存 property value 是因为,曾经在 schema 的配置中保留有以后 Sort key 对应的属性 key 了,所以没有必要再存一份)
- adjacent vertex id:target 节点的节点 id,其实存储的是指标节点 id 和源节点 id 的差值,这也能够缩小存储空间的应用
- edge id:边的全局惟一 id
Edge 的 value 组成部分:
-
signature key:边的签名 key
- 该 key 中应用的关系类型必须是属性非惟一键或非惟一单向边标签;
- 存储压缩后的配置属性的 value 值,可多个(只存 property value 是因为,曾经在 schema 的配置中保留有以后 signature key 对应的属性 key 了,所以没有必要再存一份)
- 次要作用晋升 edge 的属性的检索速度,将罕用检索的属性设置为 signature key,晋升查找速度
-
other properties:边的其余属性
- 留神!不蕴含配置的 sort key 和 signature key 属性值,因为他们曾经在对应的地位存储过了,不须要屡次存储!
- 此处的属性,要插入属性 key label id 和属性 value 来标识是什么属性,属性值是什么;
- 此处的 property 的序列化构造不同于下述所说的 vertex 节点的 property 构造,edge 中
other properties
这部分存储的属性只蕴含:proeprty key label id + property value;不蕴含property 全局惟一 id
!
具体解释及思考:
在进行详细分析前,请大家思考几个问题,如下:
- 基于上述的 edge 逻辑构造,JanusGraph 是如何结构邻接列表的 或者 是如何获取源节点的邻接节点的?
- 上述的 Edge 逻辑构造中的,每局部的排列的程序的含意是什么?
1、基于上述的 edge 逻辑构造,JanusGraph 是如何结构邻接列表的 或者 是如何获取源节点的邻接节点的?
从上述的 整体构造
局部中,咱们能够晓得,vertexId 行后跟着以后的节点关联的所有的 edge;
而在上述的 edge
的逻辑构造中,有一个 adjacent vertex id
字段,通过这个字段就能够获取到 target 节点的 vertex id,就相当于指向了 target 节点,整顿一下:
如上图,通过上述的条件,就能够结构一个 VertexA 指向 VertexB 和 VertexC 的邻接链表;
其实,JanusGraph 能够了解为结构的是 双向邻接列表
,根据上图,咱们晓得 vertexA 和 vertexB 和 vertexC 存在边关系;当咱们结构 vertexB 的邻接列表时,会蕴含指向 vertexA 的节点,只是说在 edge 对应的逻辑构造中边的方向不同而已:
总结:JanusGraph 通过 vertex id 行中蕴含所有关联的 edge,edge 逻辑构造中蕴含指向 target 节点的数据来组成双向邻接列表的构造;
2、上述的 Edge 逻辑构造中的,每局部的排列的程序的含意是什么?
首先,在查问的时候为了晋升查问速度,咱们首先要过滤的是什么,针对于 edge 毋庸置疑是 边的类型
和边的方向
;
所以,为了咱们能够更快的拿到类型和方向,所以在 edge
的存储构造中,咱们发现作者将类型和方向寄存在了 column 中,并且是 column 的最后面局部;这样咱们能够间接通过判断 column 的第一局部字节就能够对 边类型
和方向
进行过滤!
ps:尽管咱们在写 Gremlin 语句的时候,可能是语句写的是先过滤边的属性或者其余,然而 JanusGraph 会针对咱们的 gremlin 语句进行优化为先过滤
边类型
和方向
接下来,咱们可能对边的属性进行过滤,咱们怎么晋升常常要过滤的属性的查问速度呢?咱们将常常用于范畴查问的属性配置为 sort key,而后就能够在过滤完边类型和方向后疾速的进行属性的范畴过滤(此处疾速的指过滤配置为 sort key 的属性);
3.2 property 的构造
property 的存储构造非常的简略,只蕴含 key id
、property id
和value
三局部:
- key id:属性 label 对应的 id,有创立 schema 时 JanusGraph 创立;不同于属性的惟一 id
- property id:属性的惟一 id,惟一代表某一个属性
- value:属性值
留神:属性的类型蕴含 SINGLE
、LIST
和SET
三种 Cardinality;当属性被设置为 LIST
类型时,因为 LIST
容许以后的节点存在多个雷同的属性 kv 对,仅通过 key id
也就是属性的 label id 是无奈将雷同的属性 label 辨别进去的
所以在这种状况下,JanusGraph 的 property
的存储构造有所变动,property id
也将会被存储在 column
中,如下图:
四:index 存储构造
1、Composite Index 构造
图一(惟一索引 Composite Index 结构图):
图二(非惟一索引 Composite Index 结构图):
Rowkey 由 index label id
和properties value
两大部分组成:
- index label id:标识以后索引类型
- properties value:索引中蕴含属性的所有属性值,可多个;存在压缩存储,如果超过
16000
个字节,则应用GZIP
对 property value 进行压缩存储!
Column 由 第一个字节 0
和 vertex id
组成:
- 第一个字节 0:无论是惟一索引,还是非惟一索引此局部都会存在;如图一
- vertex id:非惟一索引才会在 column 中存在,用于别离多个雷同索引值对应的不同节点;如图二
value 由 vertex id
组成:
- vertex id:针对于 rowkey + column 查问到的 value 是 vertex id,而后通过 vertex id 查问对应的节点
2、Mixed Index 构造
这里以 ES
作为第三方索引库为例,这里只介绍一般的范畴查找的 mixed index 的结构:
ES 的概念为:index 蕴含多个 type;每个 type 蕴含多个 document id,每个 document id 蕴含多个 field name 和对应的 field value;
在 Jausgraph
中
- index:蕴含两种,
janusgraph_edge
和janusgraph_vertex
两种 - type:可自定义
- document id:edge id 或者 vertex id
- field name:索引对应属性的 label string
- field value:属性对应的 property value
基于 倒排索引
的查问程序为,给定过一个 property label 和 property value 查问对应的 Vertex id 或者 edge id,则查问满足要求的 field name 和 field value,就能够获取到对应的 document id 即 Vertex id 或者 edge id;
五:序列化数据案例
以序列化实例来看下上述所说的整体构造
测试节点数据:
{
"label":"user",
"propertyMap":{
"create_time":"2016-12-09 02:29:26",
"user_name":"张三",
"user_id":"test110"
},
"vertexId":4152
}
测试边数据:
{
"edgeId":17514510,
"label":"user_login_phone_number",
"propertyMap":{"productid":"2"},
"sourceId":4152,
"targetId":40964120
}
跟踪 Janusgraph 源码,获取其序列化信息,后端存储应用Hbase
:
节点序列化后数据(不蕴含索引):
边序列化后数据(不蕴含索引):
节点的 vertex id 序列化后的数据为 56 0 0 0 0 0 0 -128
;一个节点对应的属性和边的 Rowkey 雷同,根据qualifier
也就是 column 来进行辨别;
在边的序列化后果中,蕴含两局部:一部分是节点 4152
的 kcv,一个是节点 40964120
的 kcv;这中央也能够阐明 JanusGraph 是采纳的双向邻接链表进行图存储的
五:Schema 的应用
从上述来看,咱们能够晓得,JanusGraph 图的 schema 该怎么定义次要是由 edge labels、property keys 和 vertex labels 组成(Each JanusGraph graph has a schema comprised of the edge labels, property keys, and vertex labels used therein)
JanusGraph 的 schema 能够显式或隐式创立,举荐用户采纳显式定义的形式。JanusGraph 的 schema 是能够在应用过程中批改的,而且不会导致服务宕机,也不会拖慢查问速度。
比方一个简略的显示定义的销售图的 scheme:
<propertyKey value="salesman_id" explain="销售人员 id" index=""type="java.lang.String" />
<propertyKey value="real_name" explain="姓名" index=""type="java.lang.String" />
<propertyKey value="role" explain="角色" type="" />
<propertyKey value="city_code" explain="所处城市代码" index=""type="" />
<propertyKey value="create_time" explain="创立工夫" index=""type="" />
<edgeLabel value="saleman_service_for" explain="销售疏导">
<propertys>
<property value="create_time"/>
</propertys>
</edgeLabel>
<edgeLabel value="own_salaman_Idcard" explain="销售身份">
<propertys>
<property value="create_time"/>
</propertys>
</edgeLabel>
<index elementType="vertex" indexType="compositeIndex" name="salesman_id_I" >
<propertyKeys>
<propertyKey value="salesman_id" />
</propertyKeys>
</index>
<vertexLabel value="salesman" explain="销售" >
<propertys>
<property value="salesman_id" />
<property value="real_name" />
<property value="role" />
<property value="city_code" />
</propertys>
<edges>
<edge value="saleman_service_for" direction="out" />
<edge value="own_salaman_Idcard" direction="out" />
</edges>
</vertexLabel>
当然,咱们也能够增加一些其余的能够组成 schema 的元素,上述三个是必须的,另外的比方索引(index)等,次要的构造还是:
JanusGraph Schema
|-----------Vertex Lables
|-----------Property Keys
|-----------Edge Labels
和关系型数据库不同,图数据的 schema 是定义一张图,而非定义一个 vertex 的。在 Mysql 中,咱们通常将建设一张表定义为创立一个 schema,而在 JanusGraph 中,一个 Graph 用于一个 schema。
六:源码剖析
源码剖析曾经 push 到 github:https://github.com/YYDreamer/janusgraph
七:总结
- JanusGraph 采纳
Edge cut
的形式进行图切割,并且依照双向邻接列表
的模式进行图存储 - JanusGraph 每个节点都是对应的 kcv 构造;vertex id 惟一标识节点;对应的行 cell 存储节点属性和对应的边
- 节点 id 的分布式唯一性采纳
数据库 + 号段
模式进行生成;