共计 3234 个字符,预计需要花费 9 分钟才能阅读完成。
2022 年 9 月 3 日,由中国社会科学院社会科学文献出版社、中国领取清理协会、北京金融科技产业联盟领导,由北京区块链技术利用协会(BBAA)主办的“Web 3.0 发展趋势高峰论坛暨 2022 元宇宙、区块链、金融科技蓝皮书发布会”在服贸会上胜利举办,偶数科技应邀出席。大会隆重公布《中国金融科技倒退报告》、《中国区块链倒退报告》、《中国元宇宙倒退报告》三部年度蓝皮书。其中偶数科技参加了本年度的《中国金融科技倒退报告》编写。会上,偶数科技专家蒋秀峰就主题《用湖仓一体实现基于业务实质的监管数据治理》进行了分享,以下为发言实录:
嘉宾发言现场非常高兴有这个机会把偶数科技在数据资产治理畛域的一些实际和摸索成绩跟大家分享。明天我分享的题目是《用湖仓一体实现基于业务实质的监管数据治理——如何做好数据资产化工作》。数据治理是咱们实现数据资产转化一个十分重要的伎俩,所以小标题是数据资产化。如何做好数据资产化相干工作?难道之前数据资产化(如数据治理)的工作咱们做的不好吗?过来 10 到 15 年咱们的金融机构其实做了大量的数据管控和数据治理相干的工作,获得了十分不错的问题。咱们能够回顾一下咱们数据管理类零碎通过了十几年建设之后的数据利用的现状。几个数字跟大家分享一下:第一个,90% 能够说靠近 90% 的金融机构曾经实现了数据仓库、大数据平台等这类平台的建设工作。第二个,100% 曾经建设完数据平台的企业简直 100% 同时做了数据管控和数据治理相干的工作。第三个,80% 咱们曾经实现了这些数据管控和数据治理的前提下,咱们看到约 80% 的数据管控零碎利用状况并不乐观,他的效费比绝对是比拟低的。第四个,100% 当初简直所有的数据治理的工作呈现出“静止式”治理的特点,针对不同畛域每个阶段进行数据治理工作。第五个,60% 数据应用过程中靠近 60% 的工时和资源耗费在数据筹备的过程,并且更多的是通过外包的开发资源,外包的资源理论存在下面 第 1、第 2 和第 3 的特点,一个外包资源在做数据筹备工作的第一年可能品质、成果、效率都不是很能满足要求,第二年各方面做的不错,第三年可能就走了,这意味着一些重复性的工作,挑战性不大。第六个,80% 以监管为例,咱们发现在监管报送的数据品质方面,80% 会呈现一些错报、漏报,更多是因为数据治理没有很好的解决底层业务复杂性,稍后我会讲为什么业务复杂性会影响到整个数据品质。
数据资产化工作现状以上是以后数据利用过程中遇到的问题和特点,由这几个特点能够得出:咱们的数据治理工作过来 10 到 15 年尽管获得了十分不错的功效,然而依然有进一步的晋升空间,这个晋升空间就是咱们做好数据治理工作的指标,咱们把这个指标再提炼一下,至多从偶数科技实际和察看角度应该包含三个局部:第一点,要造成一套基于业务视角的对立数据模型,这套数据模型是要解决底层业务逻辑复杂性的。第二点,这套数据模型可能切实解决数据利用过程中数据看不懂、数据找不到、数据找不全,以及数据利用过程中次要依附集体教训的问题。第三点,可能造成一套满足不同用户、不同利用场景的数据架构。这是咱们认为做好数据资产化工作最根底的三点。为什么要基于业务实质进行数据治理工作?过往在数据治理过程中更多的是偏差于业务的数据品质治理,以及业务数据的可读性,次要集中在元数据缺失治理和准确性治理,这种治理带来的益处是在应用数据的时候能够用表的名称来判断表中业务数据的范畴以及业务含意,比方,咱们常常看到的《对公客户信息表》能够判断其蕴含所有对公客户的信息,这种判断大多数状况是无效的。然而咱们也发现,往年一季度银保监会公布了一个 EAST 处罚信息,1/ 5 以上的金融机构都被处罚,总共罚款 8000 多万。处罚起因是数据的错报、漏报、瞒报,为什么会产生错报、漏报、瞒报?咱们能够通过一个简略的例子剖析其起因。如果要统计全机构危险数据资产,针对委托贷款风险数据资产是否应该纳入进来,这是十分细节的问题。委托贷款能够在现金管理项下,也能够在非现金治理项下。(1)从业务口径角度,咱们可能对“委托贷款风险数据资产”的定义有了解偏差,进而间接影响到监管报送的数据品质;(2)即使没有了解偏差,咱们在理论进行“委托贷款风险数据资产”数据提取整合过程中,该数据扩散在不同的业务零碎(如信贷、国内结等零碎)依然会对数据提取造成阻碍,最终造成错报和漏报。因而,偶数科技通过实际和剖析发现,错报、漏报背地的根本原因是金融机构在数据处理过程中没有基于业务实质对底层逻辑化繁为简。除了基于业务实质的数据治理,还有一个关键词是监管数据治理。后面咱们分享提到,金融行业数据管理及应用领域广泛外包的景象,少有企业有志愿、有能力投入大量的资源进行相干工作。但监管机构例外,监管机构面向的是几千家不同的金融机构,无论从业务能力、技术能力以及职能指标,都须要建设一个基于风控视角的数据模型,这个数据模型当初以 EAST 最为典型(审计署也有一套统计数据模型起到了同样的作用)。实际层面来看,EAST 从 1.0、2.0 到 5.0,始终是基于业务实质的设计思路,咱们是能够借鉴监管研究成果进行基于业务实质的数据治理工作的。咱们后面说到的相干数据治理成绩,造成风控视角的对立数据模型,其利用场景也是丰盛的、有价值的。利用场景最有价值之处在于如何构建数据湖或者湖仓一体平台。通过这张图,咱们看到的是技术倒退的脉络,通过技术倒退这个脉络,咱们总结出数据管理平台的现状和有余。
监管数据治理成绩的利用(湖仓一体)第一个阶段是晚期传统 OLTP 数据库的呈现。从第二阶段,大规模并行处理技术 MPP 呈现的同时,数据管理平台对应的是咱们数据仓库建设的阶段,大略是在 2004 年、2005。有些起步较早的国内厂商(如 IBM 和 TD)既有底层的数据库平台,也有下层的数据仓库建设办法和对立的数据模型,这套数据模型在市面上失去了金融客户的认可。当初数据湖厂商的一个特点是只关注底层技术平台,下层的平台建设办法呈现出百家争鸣的特点,并没有造成一套行业标准和被认可的数据模型,偶数也在思考和摸索湖仓一体的数据模型到底应该如何建设。实际上,基于监管数据治理后造成的面向危险管控的对立数据模型是十分重要的,可能领导咱们建设湖仓一体平台。高性能的底层根底平台加上下层的整合的数据模型,可能更便捷的撑持咱们的数据利用,成为数据利用的加速器。当然数据治理不仅是方才说到的基于业务实质做数据整合,还包含数据资产自身的盘点、传统数据管控三大项、基于数据向上做的元数据治理、业务数据治理、数据画像工作和数据资产经营。传统的数据管控或数据治理是为治而治,并没有建设管控与利用之间的抓手,抓手的问题其实要通过数据利用相干策略和伎俩进行。以上是偶数科技数据治理的钻研,目前偶数曾经有一些实际和摸索成绩,并且咱们研发了一套对立的监管数据模型,咱们把这套对立的监管数据模型叫做偶数模式。偶数模式与进阶模式不同,在进阶模式,尽管很多银行都有对立的监管数据平台或监管报送零碎,然而其底层架构依然是数据分体的,这也是为什么金融机构即使正确理解了某一业务口径(如委托贷款风险数据资产),实操层面依然不可避免受到技术架构掣肘,造成疏漏。
偶数科技监管数据治理研究成果偶数岂但曾经摸索研发的监管数据模型以外,还有一套残缺的施行办法和流程,这套施行办法流程区别于传统办法的,是引入了数据资产这个概念,联合后面提到的数据资产的经营伎俩,偶数施行方法论实现底层业务简单逻辑所要求的模型整合。此外,咱们还有配套的工具类产品,包含基于数据开发和数据管理的组件 Lava,向上数据利用、数据分析的组件 Kepler 和 Littleboy 建模平台。因而,偶数从工具层面、施行办法层面、模型层面都能更好的撑持金融机构实现基于业务实质的监管数据治理,利用到对立的报送平台。当然,这套办法也能够扩大出如方才提到的面向审计的对立数据治理和数据模型、面向营销的对立数据治理和数据模型。我的分享就到这里。谢谢大家!