关于数据库:金融图数据库选型工具LDBCFinBench

3次阅读

共计 2425 个字符,预计需要花费 7 分钟才能阅读完成。

图计算技术在金融反洗钱,风控,KYC,股票举荐等畛域的价值引人注目。图数据库作为图计算技术最重要的根底软件,其选型对我的项目的最终成果起着决定性的作用。

目前,业内还没有针对金融场景的选型测试工具,导致金融机构在进行图数据库选型测试时,只能基于本身的某个场景,或应用一些非金融场景的基准测试(如基于社交网络的 LDBC-SNB,Twitter 数据集等)来对图数据库进行测试。

这两种形式都存在较大的缺点。基于自有场景的测试,在数据代表性、场景算法等方面都有局限,因为进行选型时理论应用场景还没有齐全确定,只能应用“以后能想到”的一部分场景、数据和算法来测试。而应用基于社交网络的基准测试,则会产生场景错配的问题,因为社交场景的数据和算法与金融场景并不统一。

为了解决这一艰难,蚂蚁团体向国内关联数据基准委员会(下文简称 LDBC)组织提议设计一个针对金融场景的图数据库测试基准,这一基准命名为 LDBC-FinBench(下文简称 FinBench),目前曾经在 LDBC 正式立项,预计于 2022 年底公布内测版本,明年第二季度正式公布正式版本。

LDBC-FinBench 项目组由蚂蚁团体牵头,Intel、海致星图、创邻科技、Ultipa、悦数科技、TigerGraph 等国内外 10 家图计算畛域的科技企业、行业专家参加。和聚焦社交网络场景的 LDBC-SNB 测试基准不同,FinBench 模仿了金融场景下实在的数据分布和数据查问,帮忙理解被测系统在金融场景下的综合体现,为客户抉择和洽购图计算产品提供了业余、主观的规范和工具。

LDBC FinBench 工作小组通过大量调研和多轮探讨,参考大量国内外成熟的数据库测试基准设计办法和蚂蚁团体、不同金融机构的大量实在业务场景,于 2022 年 6 月对外公布了基准阐明(草案)并征求意见,进行迭代和丰盛,目前已收到不少来自客户、合作伙伴和开发者的询问。大家广泛关注 FinBench 中的图模型(Schema)以及相干的基于图数据的查问(Workloads)。下文将着重介绍 FinBench 在这些方面的设计。

1. 合乎实在金融场景的数据模型设计(Data Schema)

LDBC FinBench 的数据模型旨在反映金融零碎中的实在数据。事实零碎中常见的金融实体包含账户(Account)、媒介(Medium)、人(Person)、公司(Company)、贷款(Loan)。实体是顶点,边反映金融流动,例如资金从一个账户转移(Transfer)到另一个账户。

金融场景的数据模型与一般社交网络相比,有一些显著的差异。例如两个账户之间能够存在许多转账记录,在图模型中就显示为两个顶点之间能够存在多条边。而社交网络中的敌人关系,只是繁多的边。另外,金融场景中,顶点存在动静的属性来标记实体状态。例如,一个账户依据不同的状况,能够被标记为标黑(blocked)或非标黑;转账的金额差异很大,所以代表转账的边中存在数量的属性等。

须要强调的是 LDBC-FinBench 数据模型的很多边类型上,都减少了一个工夫戳(timestamp)的属性,这是金融场景下十分重要的数据。无论转账、贷款、贷款、偿还款,甚至用户登录、贷款申请、公司投资和担保的具体工夫和先后顺序,都蕴含着有价值的信息。因为减少了工夫戳(timestamp)属性,特定工夫频繁操作等情景也能够被无效辨认进去。

2. 具备多场景业务数据的简单查问能力(Workload)

在线的金融零碎在进行数据处理和剖析中,会进行大量的读操作、写操作和读写混合的操作。思考了事实业务中的对数据拜访的复杂性的差异,FinBench 还把读操作分为了简略读、简单读。FinBench 阐明文档(草案)具体地形容了 14 种简单读查问(TCR),8 种简略读查问(TSR),14 种写查问(TW),5 种读写混合查问(TRW)。

从金融畛域的业务角度来看,这些查问反馈的场景很多,包含资金追踪、集资提款行为辨认、资金快进快出辨认、转账环辨认、账务例行查看、持股类似度剖析、股权关联剖析、担保环辨认等。

上面让咱们选取几个典型的查问,做进一步介绍(以下为测试模仿场景,非实在业务)。

2.1 转账环辨认(TCR 4)

这条查问能够辨认三个账户是否造成一个转账的环路。转账环能够无效辨认潜在的洗钱行为。

2.2 资金快进快出辨认(TCR 7)

资金频繁的进出一个账户,金额近似,工夫近似。风控部门拿到转入和转出的账户的列表,就能够进行下一步的剖析和判断。

2.3 通过贷款的异样转账辨认(TCR 9)

这是一种绝对荫蔽的异样转账行为,最下面的 up 账户通过 mid 账户向 down 账户转钱。如果间接转,很容易从转入转出的工夫和金额上被辨认。有些人就会采纳先贷出款,而后转账到下家 down,再通过上家 up 转账给 mid,最初 mid 把贷款的钱还上。这种情景下各类交易(边上的工夫戳)肯定要满足相应的先后顺序(edge2 早于 edge4 早于 edge3 早于 edge1)。

转账环辨认后,封闭高风险账户(TRW 1)

这是一个读写组合查问。零碎承受到一笔转账申请后,先查问账户的标黑(blocked)状态,如果状态失常,并不是马上转账,而是插入转帐边,查看退出新的边后,图中会不会造成转账环。如果造成了转账环,就能够把账号标黑。

这是一个实时产生的场景,能够在转账产生前,就辨认出可能的转账危险。比起预先再对进行数据的剖析,账户的标黑和损失钱款的追缴,能够无效地爱护账户和交易的平安。

小结:

LDBC-FinBench 的数据模型和查问对金融场景做了肯定的形象。基准测试的次要目标是为了更好地掂量图数据库的性能和性能,为洽购和研发提供参考。LDBC-FinBench 同时也是一个行业级的基准测试,对于金融行业的用户,在图数据库的利用设计和产品翻新等方面也将起到抛砖引玉的作用。

目前 FinBench 工作还在紧锣密鼓的推动中,欢送感兴趣的组织或集体退出共建。期待大家继续关注 LDBC-FinBench 的动静。

正文完
 0