关于tidb:同盾科技-x-TiDB丨实时数据架构为风控智能决策保驾护航

38次阅读

共计 2763 个字符,预计需要花费 7 分钟才能阅读完成。

同盾科技是中国当先的人工智能科技企业。为了确保服务的低提早和高可用性,同盾的技术团队一直寻找最佳的技术架构。通过长时间调研,他们最终抉择了新一代分布式数据库 TiDB 作为离线层的外围数据库,基于 TiDB 打造的实时数据架构为风控智能决策保驾护航

同盾科技是中国当先的人工智能科技企业,专一决策智能畛域,致力于帮忙政企客户防备危险、晋升决策效率。同盾科技保持自主科技翻新,多项算法和软件系统已达寰球领先水平,并造成了“基于隐衷计算的共享智能平台 - 智邦”和“基于人工智能的决策智能平台 - 智策”两大平台,聚焦于金融风险、平安危险、政府治理危险三大场景,业务笼罩寰球数十个国家,为 22 大行业、118 个细分场景的上万家客户提供了当先且独具特色的决策智能解决方案。

风控业务场景对数据库的需要与挑战

作为一家第三方风控公司,客户常常须要调用同盾的智能决策服务去做业务决策,如电商大促期间防备黑产薅羊毛,集体信贷杜绝多头借贷老赖行为等。因而,同盾服务调用经常呈现出十分大的 TPS 申请 。同时,为了不影响客户调用服务的品质与体验, 同盾对低提早和高可用有着硬性要求

基于这样的特色,同盾日均过亿的决策服务调用,会产生包含非结构化 / 结构化多种数据结构类型在内的海量数据入库。丰盛的数据类型与多样的细分场景,使得同盾科技必须应用多种数据库去满足不同的业务场景需要,在同盾的数据架构中蕴含了 Cassandra、MySQL、HBase、Redis、Mongo 等数据库。

在同盾的数据架构中,大多数初始落库的数据还比拟原始,为了提供优质的数据服务用于智能决策,技 术团队构建了成熟的大数据平台,用 T+1 离线数据分析的形式去进行日常的离线数据分析作业,利用数据二次加工赋能下层的风控智能决策。

但面对简单的数据基础架构,同盾在业务增长中也遭逢了如下挑战:

  • 同盾领有在线数千个大大小小的 MySQL 工作实例,数据非常扩散,有一些是外围的风控业务零碎数据,有一些是后盾基础架构平台的数据,还有一些是团体 IT 零碎数据,同盾心愿通过集中化的形式对这些数据进行剖析治理;
  • 最开始同盾将上游 MySQL 数据同步到上游进行剖析,但整个过程中 数据交换工作效率非常低,整体作业剖析的 SLA 无奈失去保障;
  • 因为上下游数据同步的阻塞问题,导致了离线数据同步实时性很差,上下游数据经常出现数据不统一的状况,十分影响提供给作业的数据品质。

其实同盾科技的业务场景并不简单,只须要同步生产环境中数千个 MySQL 实例至上游的离线零碎,提供给作业开发人员通过大数据平台进行离线剖析加工。我的项目的外围指标是在海量数据落库下,保障在线到离线数据的数据库的准实时性和一致性,并提供优质的数据服务给外部的风控系统开发人员、算法模型工程师和经营人员加工数据。

为什么抉择 TiDB?

通过长时间调研,同盾科技的技术团队最初抉择了新一代分布式数据库 TiDB 作为离线层的外围数据库。同盾科技数据库运维梁高升示意,次要有以下几点起因最终促成同盾抉择 TiDB:

首先,TiDB 高度兼容 MySQL 协定,在 TiDB 的应用和运维过程中大大加重了运维和开发人员的应用老本;

第二,TiDB 作为 分布式数据库,同盾能够把它看成一个大的数据库实例,能够汇聚上游所有的 MySQL 实例数据;

第三,TiDB 具备 存算拆散 的架构,能够让同盾非常灵活地管制硬件老本,而不必一味堆砌服务器;

最初,TiDB 领有 十分沉闷的社区。即便在应用 TiDB 的过程中遇到一些问题也马上能在社区失去解决。

解决方案

最终,同盾科技数据库团队构建了一整套基于 TiDB 的数据流转架构,该架构共分为三层:

实时数据层

同盾外部有 3000+ MySQL 实例,在实时数据库层通过 MySQL Cloud 管控上游数千个 MySQL。

传输层

在传输层,从 MySQL Cloud 对接实时数据同步工作到外部 Otter,Otter 能够实现准实时同步 MySQL 数据,而后再由 Otter 实时同步数据到 TiDB。

上下游同步组件决定了数据在上游离线场景的整体数据品质,同盾对数千个 MySQL 实例同步数据的同时,须要保障其稳定性、低提早及整体可控的治理老本。尽管 PingCAP 数据迁徙工具 DM 反对全量 / 增量灵便的数据导入场景,并具备较快的导入速率,但目前单个 DM worker 只反对绑定一个数据源,这限度了治理大量 MySQL 同步工作的需要。同盾最初抉择应用 Otter 作为常态化的数据增量同步平台,但 Otter 只反对增量数据同步,且单任务吞吐有下限,同盾通过应用其反对 spark streaming 来进一步保障同步的吞吐和准实时性。将来在 TiDB 推出一个 DM worker 反对多个数据源的个性后,同盾会再思考进行替换。

离线数据层

离线数据层中的大数据平台次要管控 TiDB 的元数据和理论到上游的同步状况。在 Spark 运行作业的过程中通过 TiSpark 去拜访 TiDB,最初接入 Hadoop 进行剖析作业。

业务收益

通过打造 TiDB 数据产品链,同盾科技实现了数千个 MySQL 数据的离线汇聚治理。TiDB 有着便捷易操作的 Dashboard 治理界面,运维无心智累赘,大大晋升了数据库运维团队的治理运维和应用数据的便捷性与效率。同时,TiDB 的高性能保障提供高质量的数据服务,实现了准实时同步数据。

同盾科技数据库运维梁高升介绍,同盾刚开始上线的是 TiDB 2.0 晚期版本,在上下游数据同步过程中遇到了一些 TiDB 和 MySQL 不那么兼容的状况,如果在上游有大量数据更新的状况下,会呈现同步阻塞的状况,导致同步的实时性、一致性呈现问题。但 TiDB 版本迭代速度十分快,每个版本都会对性能及稳定性做出大量改良和优化,在降级到 5.4 版本后,同盾就曾经解决了大部分的兼容问题。而且在基准测试中,TiDB 的性能也失去了质的飞跃。

将来布局

同盾科技是 TiDB 十分晚期的用户,多年的应用让同盾确信 TiDB 是一款十分好的产品,将来也会持续致力于在更多的场景依附 TiDB 生态落地赋能一些业务场景。例如,尽管同盾的大部分作业是 T+1,但外部也有很多实实在在的实时剖析场景,比方实时展现的 BI 零碎,通过 TiFlash 实时剖析查问引擎能够进一步晋升剖析效率,更及时地满足实时剖析需要;同盾国内在线业务针对海量关系型数据库初始应用的是 MyCAT,然而 MyCAT 的运维十分艰难,对开发也不是很敌对,更像是上一代的分布式数据库产品。后续,相似 MyCAT 这样的场景也很有必要应用 TiDB 进行替换。

近几年,随着出海趋势愈发炽热,同盾科技在出海业务势头也十分迅猛,业务波及东南亚、北美、欧洲等多个区域,这就须要在谷歌云、AWS、阿里云等通用私有云上,有一款规范的分布式数据库服务,帮忙其在寰球疾速布局业务。而 TiDB Cloud 曾经在各大支流私有云上提供服务,这也给同盾科技构建松软的技术底座提供了更好的抉择。

正文完
 0