什么是图(Graph)
图(Graph)是一种十分直观表白事物及其关联关系的数据结构,根本元素是“点”和“边”,点示意一个事物,边就示意他们之间具备肯定关系。
比方上面这张图,它的点有公司、员工、我的项目,边即他们之间的关系——公司和员工之间是雇佣关系、员工和员工之间能够有好友关系、我的项目和员工之间也能够有参加关系。也就是说咱们能够用图的形式来把事物和它们的关系形象进去。
这是一张构造比较简单的图。随着点和边一直减少,图数据越来越多越来越简单,逐步造成更丰盛的网状结构。比方一些金融交易图,它的规模可能会十分大,超过 10 亿个点,有千亿甚至万亿边。能够设想,要真正解决这些图还是很有挑战的。
为什么须要图计算
把计算机设想成大脑,咱们要解决两个关键问题:数据的存储和剖析。
传统的数据存储采纳关系型数据库,其构造是“表构造”(设想一下 Excel 表格)。比方一家银行的客户转账信息可能蕴含交易人员、交易金额、交易工夫,记录在一张表格里。如果交易人 A 和 B 之间有间接转账关系,这种间接关系用关系型数据库是不难发现的。但对于非间接关系,关系型数据库就较难“穿透”多个点来发现了,即使能够解决,查问速度也可能十分慢。咱们用信用卡套现来举例。
首先是简略的间接套现模式。如左侧图显示,一个人办了一张信用卡,他其实不是真的想去还款,他找了一个商店,这个商店提供一个非法的服务就是信用卡套现。那么他通过信用卡付款,把 2020 元钱转到这个商店。这个商店间接就把其中的 2000 元钱返回给付款人,就实现了一次套现。这样的一种套现是非常简单的,咱们通过对这个个体,对这个商店的收款记录和付款记录做剖析,就能够辨认出套现行为。
但左边这张图就简单了很多。咱们能够看到,右上角的这个人,他还是通过信用卡付款,付了 2020 元钱给了商店。这个时候,商店没有间接把钱退给付款的人,而是由一个集体付了 2000 元钱给到一个第三人。这个集体和商店之间,咱们能够通过一些剖析发现,他实际上领有这个商店,所以咱们把这种关系叫做同人关系。就是店和人尽管看起来是不同的实体,但其实他们之间有一个十分强的关联。那么他付款给的第三人也不是最开始刷卡的人,而是刷卡人的一个亲友,店主付款到了刷卡人亲友的银行卡上。那这样的一个套现模式就比右边的简单很多了。咱们把这种模式叫做多跳闭环模式。
要剖析这种多跳闭环模式,就须要找出简单的关联关系,而不能只对这个个体进行剖析。然而大家可能会说,你画的这张图很简略呀,我一眼就能看进去,这是一个闭环,这个好人我很快就能抓住。
但理论生存中状况可能会更加简单,有更多其它交易和关系,就没那么容易看进去了。如下图所示,左边这张图可能会有千亿条甚至万亿条边,怎么很快地在这个图上把环找进去,这就对整个剖析技术——简单的关联剖析技术提出了十分高的要求,性能成为了要害。
什么时候要用图计算
随着数据量和深度的减少,如果咱们用传统的关系数据库的办法去剖析的话,那就可能十分十分慢,难以在无效的工夫内计算出后果。而图计算技术间接将事物与其关系像制作地图一样定位存储下来,间接撑持对事物和关系的各种查问和计算——这与咱们大脑对信息的解决模式很像,大脑自身也能够建模成一个图。因为提供了对关联数据最间接的表白,以及图模型对异构数据人造的容纳力,能够很好的解决目前遇到的关联数据分析问题。
由此可见,关系型数据库的设计善于答复“已知”的问题,而图数据库能够答复超出构想的“未知”问题。相较于关系型数据库,图数据库是真正重视“关系”的数据库。
咱们方才举的是金融方面的例子,然而图计算的用处远远不限于金融行业。在互联网、工业畛域、医药、公共卫生、公共安全等畛域都有很多的利用。如绘制用户社交关系图谱进行社交影响力排名、好友举荐;构建设施关系网络图谱实现物联网建模剖析、供电网络建模剖析等。
随着互联网和 5G 时代数据指数级增长,数据之间的关系越来越简单,企业治理和剖析数据面临更高难度。越来越多的企业管理者们开始关注以图为代表的技术来更智能地应用数据,Google、Facebook 等科技巨头也早就在通过图数据库的力量来撑持次要业务利用。
国内出名征询公司 Gartner,每年都会公布各种技术趋势的报告。在 2021 年的《十大数据分析技术趋势》报告中,Gartner 提到了“Graph relates everything”。这是一个十分乏味的双关,即图连贯万物,一方面示意了图的实质,就是把各种事物连起来,另一方面也表白了图会在数据分析的各个领域失去广泛应用。Gartner 预测到 2025 年,图技术在数据和剖析翻新中的占比将从 2021 年的 10% 回升到 80%。