共计 3540 个字符,预计需要花费 9 分钟才能阅读完成。
2021 年 10 月 20 日,Tapdata 创始人唐建法(TJ)受邀缺席 DTCC 2021(中国数据库技术大会), 并在企业数据中台设计与实际专场上,发表宗旨演讲“Real Time DaaS:打造面向 TP+AP 业务的数据平台架构”,从 AP 业务场景 vs. TP 业务场景、常见数据平台优劣势、如何打造面向 TP+AP 业务的数据平台等角度,全面分享了 Tapdata 在全链路实时数据交融平台的独特技术劣势和最佳实际案例,整场分享干货满满、广受好评。
从 20 年前的传统数仓,到 10 年前大数据平台,5 年前开始炽热的数据中台以及最近呈现的湖仓一体新数据平台,企业对这些 AP 业务场景的数据产品及架构有着太多的抉择,然而实际上,企业在 TP 类型业务上的投入和 AP 相比是 9:1,为什么没有面向 TP 业务的数据平台呢?
唐建法指出,之所以 TP 业务数据平台还不多见,是因为数据孤岛问题不重大的时候,TP 只须要一个 RDBMS 就能够解决,同时因为 Technical Difficulty,不足适合的工具和技术架构,TP 业务数据平台难以推广。
TP vs. AP 不难发现,他们有着较大的差别和特点。从业务场景来看 OLTP 如常见的:在小程序上一套新的 CRM、租房子(屋宇租赁平台)等,与之对应的 OLAP 场景就是:用户行为洞察(用户对哪些产品关注比拟多,哪些产品比拟赚钱)、租房客户举荐(依据客户行为打上标签,并举荐相应的房源),其中 OLTP 切中的是企业外围经营价值链。
从技术维度来看,OLTP 要求毫秒级的数据响应速度,数百 ~ 数十万的并发查问量,而 OLAP 通常可承受数秒到分钟级的数据响应速度和数个到数十个的并发查问。在存储计划上,OLTP 罕用 Oracle,MySQL,SQLServer,PostgreSQL,DB2,MongoDB,Elastic,Redis 等,而 OLAP 罕用 Teradata,Greenplum,Hadoop 等。
既然 TP 业务场景价值更高,且需要十分明确,那么如何打造一个面向 TP 业务的数据平台架构?相似与 IaaS,PaaS 或者 SaaS,Tapdata 给出的计划是提供一个 DaaS (Data as a Service):将企业各个业务零碎的数据汇总到一个地方化平台,通过低代码形式治理当前,造成可复用的企业数据资产,通过无代码数据接口方式提供给业务应用方。
唐建法联合 Tapdata 在全链路实时数据平台方面的实际,重点解析了 Tapdata Real Time DaaS 架构的特点和翻新点:一个“实时同步 + 实时处理 + 实时服务”三位一体的全链路实时数据处理及服务平台。
DaaS 架构之一:实时数据采集同步。Tapdata 的第一步就是将批量、滞后的 ETL 换成了 CDC 形式,基于数据库 Write Ahead Log 日志同步监听的形式来进行在不同零碎之间的数据复制,它的劣势在于:对源库性能影响小;资源耗费少;从事务在源端提交开始到更新写入同步的指标库,提早能够小于 1 秒,可能满足对实时性要求较高的业务场景;
DaaS 架构之二:基于 Pipeline 的流式数据处理建模。当咱们把须要的数据从源库外面无侵入、准实时地抽取了进去之后,可能还须要:对来自多个库的数据进行合并;对表构造进行重构,组成新的模型;构建业务宽表等。基于 Tapdata 实时流数据处理技术,能够实现事件触发、毫秒级数据更新、不间断继续运行,从而满足 TP 业务和实时剖析等场景需要。
DaaS 架构之三:基于分布式数据库 MongoDB 或 TiDB 的两头库存储。相比 AP 数据平台罕用的 Hadoop 大数据存储计划,比拟成熟的分布式数据库(MongoDB 或 TiDB)更适宜作为 DaaS 的存储计划。次要起因是 DaaS 的很大一部分能力须要间接对接业务零碎,高并发,毫秒级响应是必备的能力。这种能力只有基于索引机制的分布式数据库才能够做到。MongoDB 的模型变动灵便,非常适合多源疾速交融,无需简单关系建模。而 TiDB 的 HTAP 则能不错的撑持一些常见的剖析业务。
此外,Tapdata Real Time DaaS 还具备易集成、易拓展、低代码、可视化等劣势,相比自建实时数据平台不仅落地施行快、排错难度低,还能够大幅升高学习老本。
最初,TJ 对 Tapdata Real Time DaaS 的次要技术场景和业务场景做了总结梳理:
如果你是一个利用架构师或者数据架构师,DaaS 架构能够在以下几方面作为选型参考:
- 技术场景一:疾速数据交付。TiDB, Neo4J,Nebula, Elastic Search, GreatDB, Dameng, 不可胜数的新型数据库和国产数据库品牌都在各个企业生根发芽,而每一个新数据库场景的落地,都有可能须要获取已有业务零碎的数据。DaaS 价值:间接从 DaaS 导入并放弃继续同步,满足实时数据更新的需要,从数周的工夫缩短到数小时内实现数据交付;
- 技术场景二:实时数据中台。实时买通企业数据孤岛,对数据进行实时采集,治理及建模,构建企业的主数据系统,为企业的交互式业务,包含客户治理、生产经营治理等提供一个残缺全面的企业数据底座。DaaS 价值:孤岛数据汇聚,地方化数据存储,去重、合并、从新建模,主数据管理,构建数据目录,次要撑持前端交互式业务。
- 技术场景三:实时数据大屏。为帆软、Tableau 或自研的数据可视化平台提供数据固化视图,以亚秒级的性能为这些可视化平台供数。和传统大屏依赖 SQL 和逻辑视图的计划,实时大屏交互体验无需期待,十分晦涩。DaaS 价值:数据采集同步,宽表构建,统计聚合计算。
- 技术场景四:实时数仓。将企业主数据及经营数据对立汇聚到平台,依照数仓分层实践分成根底数据,主数据和汇总数据层,为企业 BI、报表等提供疾速的数据撑持。DaaS 价值:数数据同步,数据分层,数据目录,剖析聚合能力。
- 技术场景五:企业数据服务平台。企业外部部门泛滥,各业务均须要获取企业相干经营数据,通过构建一个对立的数据服务平台,部门能够疾速的获取业务所须要的数据,并且通过 API 形式能够实现自助拜访。DaaS 价值:数据同步,数据目录,API 公布,基于内存的数据库,高并发查问。
如果你更关注 DaaS 能够发明什么样的业务价值,以下是几个比拟常见的场景 DaaS 架构会为企业实现这些业务提供显著的降本增效的能力:
- 业务场景一:全渠道商品及库存核心。大型企业往往有不同业务线,由不同 IT 部门撑持,并且有线上线下等不同渠道。全渠道营销须要买通各个业务零碎,将商品,客户,订单,库存,会员等信息进行对立,给最终客户一个全渠道商品检索,订购和售后的最佳体验。DaaS 价值:提客户体验:一站式购物;IT 效率:逐步下架传统渠道。
- 业务场景二:SCRM。小程序、钉钉等建设新一代客户关心零碎或银行推出一套新的个贷 / 信用卡业务等。DaaS 价值:提供残缺实时的客户信息给前端业务,减速业务零碎的上线。
- 业务场景三:360 度客户视图。客户信息在多套 CRM 系统维护,信息不统一,更新不及时,无奈无效进行 cross sale 和 upsale,客户服务体验差,没有对立的入口治理客户信息。DaaS 价值:进步客户体验:提供精确对立的客户信息;进步营收: 精确的客户标签和相应的举荐带来更多支出。
- 业务场景四:实时风控。银行个贷,互金小额贷,保险等在线金融业务须要对客户进行实时危险管控。做法是将来自于金融零碎和内部零碎(信用、司法、公安等)的集体数据进行对立汇聚,在申请流程中实时查问客户的危险信息并提供个算法引擎做决策。DaaS 价值:残缺实时的信息为风控提供高质量的判断,升高坏账率,进步营收利润。
在分享完结后发问环节,TJ 答复了的一个常见的用户问题:Tapdata 能够用来做数据买通,造成一个可复用的实时数据平台,然而咱们往往首要的业务诉求往往是做一些统计分析,大屏展现和经营指标。这样的话是否适合应用 Tapdata 呢?TJ 解释到,这些偏差于经营指标和聚合类计算的属于绝对简略的剖析场景,是齐全能够在 DaaS 平台里实现。作为存储的 MongoDB 自带丰盛的聚合框架计算能力,Tapdata 的流式计算也提供聚合框架,基本上能够以流式预聚合 + 数据库聚合计算两种技术能力撑持上述的数据场景。相较于大数据平台,Tapdata 的计划可能提供更加精确,更加即时的数据指标和实时剖析后果。
获取残缺演讲 PPT 内容,请点击:http://tapdata-user.mikecrm.c…,理解更多 Tapdata Real Time DaaS 相干干货内容请关注 Tapdata 技术博客:https://tapdata.net/blog.html,收费试用请点击:http://tapdata-user.mikecrm.c…。
原文地址:https://tapdata.net/DTCC-spee…