共计 2764 个字符,预计需要花费 7 分钟才能阅读完成。
在 6 月 8 日举办的【墨天轮数据库沙龙第七期—开源生态专场】中,北京大学重庆大数据研究院图数据库与常识图谱实验室副主任、北京大学王选计算机研究所全职博士后 李文杰 老师分享了《面向常识图谱利用的图数据库系统 gStore》主题演讲,本文为整顿内容。
导读
大家好,我是来自北京大学的李文杰,我明天分享的主题是《面向常识图谱利用的图数据库系统 gStore》,内容将从以下几个方面开展:图数据行业背景、gStore 图数据库系统、gStore 开源之路。
图数据库行业背景
1、大数据与人工智能推动图数据库倒退
随着大数据、人工智能时代的到来,图数据库及常识图谱也应运而生并逐步倒退。
图数据充分体现了大数据的关联性,领有宽泛的利用场景。图数据可能关联信息,使之成为常识,同时图数据可能很清晰揭示简单的模式,用于开掘人、物和实体之间的潜在不易察看的行为和分割。
在人工智能畛域,图数据也施展着微小的作用。认知智能作为人工智能中重要的分支,常识图谱便是认知智能的数据根底,因而以图数据库为代表的常识图谱逐步取得了宽广的关注。
图 1 常识图谱数据的存储与查问
2、图数据库的劣势
为什么随着大数据与人工智能的倒退,图数据可能迅速炽热?次要是基于它独特的劣势。首先,在关联查问的条件下,图数据库体现出性能方面的劣势,可能反对秒级多跳查问。除此之外,图数据库也具备优良的表达能力,可能构建与检索简单的人物关系,实现“按图索骥”。
正是因为它的独特劣势,近年来图数据一枝独秀成为近几年数据管理软件倒退最为快捷的数据管理软件类型。
图 2 图数据在 DB-Engines 上的发展趋势
gStore 图数据库系统
不论是关系型数据库还是图数据库,中国公司在外围数据管理引擎技术上存在缺位的现状,“打造图数据管理系统的中国芯”也成为了咱们的愿景。
从 2011 年开始,北京大学王选计算机所数据管理实验室开始研发面向常识图谱的图数据库管理系统,到目前为止,gStore 曾经走过了 11 年的工夫,它有着 源头翻新 、 自主可控 、 规范零碎 、 零碎优越 的核心技术。
gStore 面向常识图谱利用,采纳了 RDF 模型。在2011 年的顶级会议 VLDB 上,子图匹配的搜寻查询方法被 gStore 团队首次提出,从此奠定了 gStore 的外围是自主研发的原生的数据库管理系统。不论是从存储模式还是存储构造的角度,gStore 都是自主研发的数据库管理系统。
图 3 gStore 实现了源头翻新
gStore 同样也取得了国外业内同行的认可,在国外第三方的测试中,gStore 在性能与查问工夫上体现出了劣势。
图 4 gStore 在测试中的体现后果展现
除了技术认可,gStore 在学术上做的奉献也失去了认定。围绕着 gStore 核心技术,团队发表国内数据库畛域顶级期刊会议论文(包含 SIGMOD,VLDB 等)35 篇,被国内外学术同行援用超过 2000 次。
图 5 gStore 的学术认定
gStore 开源之路
1、研发历程及产品生态
接下来咱们一起回顾 gStore 的研发历程。
gStore 的钻研论文最早发表在数据库畛域顶级国内会议 VLDB 2011 上,在论文中提出利用子图匹配的办法来构建图数据库系统。2017 年,gStore 0.7 版本在 Github 上开源。始终到明天,gStore 也放弃着至多一月一次的代码提交频率。
图 6 gStore 研发历程
目前 gStore 开发团队研发了gBuilder、gAnswer、gWorkbench、gMaster、gCloud 等系列产品,初步造成了围绕着常识图谱利用的产品栈。
图 7 gStore 产品生态
2、为什么抉择开源?
接下来讲讲 gStore 的开源之路。为什么抉择开源,咱们基于以下两个方面的思考:
首先 gStore 作为一款自主研发的图数据库产品,在孵化期阶段须要 获取国家科技资金反对,实现产品原型及要害实践钻研。
其次咱们心愿 gStore 通过开源的形式吸引一批技术爱好者以及特定客户,从而选 择要害客户及利用场景进行技术及场景验证与摸索外围引擎产品化及商业化。
目前图数据库的倒退正处于成长期,咱们常常会花很多工夫向客户介绍“什么是图数据库”,社会公众对图数据库的不理解是这个畛域面临的一个普遍性问题。因而咱们迫切的须要从开源以及社区建设等路径,打造公众社会对图数据库的认知。
图 8 gStore 目前的阶段及为将来倒退
3、gStore 开源建设与策略
gStore 在开源建设上继续致力,踊跃与各个社区平台开展单干。
图 9 gStore 单干的开源平台与社区
作为一款开源我的项目,gStore 有较为宽松的开源策略,咱们采纳 BSD 开源协定,同时在 GitHUB
与 gitee 上有最新的源码可供下载。
咱们参考 Neo4j 的形式履行开源版与企业版并行。相较于开源版,企业版具备如最短路、环路检测、K 跳可达、PageRank 等图剖析算法的高级性能,同时还具备分布式部署的能力。
图 10 gStore 开源策略
4、gStore 将来打算
gStore 在倒退过程中,对于开发者而言存在着一些问题,借这个机会与业界同仁一起来探讨。
第一个问题是 开发者应用不易。目前我的项目中参加代码奉献的更多是高校的老师与学生,同时代码的体量较大,大概为十多万行,其中包块我的项目研发者本人设计的相干数据结构、索引构造。因而这样的代码对于开发者学习与钻研而言,较为吃力。
第二个问题是 学习材料较少。开发者可能学习和参考应用的的材料有余,也因而导致 GitHub 等平台 star 和 fork 有余。因而 gStore 的研发团队也在整顿相似于 openGauss 内核源码剖析的内核手册与文件,同时也会减少用户手册以及产品宣传的工作,从而改善学习材料较少的现状。
第三个问题是 外部沟通较少,开发者外部针对 gStore 的探讨未搭建欠缺的平台,大家互通有无连贯有余。
图 11 gStore 目前存在的问题
基于以上的问题,gStore 的开源打算将从两个方面进行重点开源优化,减少 gStore 相干应用学习材料以及减少共享机制。
图 12 gStore 前期开源打算
我明天的分享就到这里,谢谢大家!
更多精彩内容,欢送大家观看现场视频回放与会议材料
视频回放:https://www.modb.pro/video/6497
会议材料:https://www.modb.pro/doc/64475
- 查看原文:https://www.modb.pro/db/429809
- 查看【国产数据库沙龙】开源生态专场文章、视频回放资源:https://www.modb.pro/topic/412121
欲了解更多能够进入墨天轮社区,围绕数据人的学习成长提供一站式的全面服务,打造集新闻资讯、在线问答、流动直播、在线课程、文档阅览、资源下载、常识分享及在线运维为一体的对立平台,继续促成数据畛域的常识流传和技术创新。
关注官网公众号:墨天轮、墨天轮平台、墨天轮成长营、数据库国产化、数据库资讯