乐趣区

关于存储:金融数据智能峰会-数据规模爆炸性增长企业如何进行精准决策云原生数据仓库数据化运营实战分享

简介:在日前的 2021 阿里云金融数据智能峰会——《云原生驱动数智化经营的“增长黑马”》专场上,阿里云数据库资深技术专家魏闯先 从数据价值链路角度切入,为大家解读云原生数据仓库如何撑持数据化经营、全链路营销和阿里团体双 11 业务,并展现金融客户最佳实际案例和利用场景。本文内容依据演讲录音及 PPT 整顿而成。

在日前的 2021 阿里云金融数据智能峰会——《云原生驱动数智化经营的“增长黑马”》专场上,阿里云数据库资深技术专家魏闯先 从数据价值链路角度切入,为大家解读云原生数据仓库如何撑持数据化经营、全链路营销和阿里团体双 11 业务,并展现金融客户最佳实际案例和利用场景。本文内容依据演讲录音及 PPT 整顿而成。

阿里云数据库资深技术专家魏闯先

一、背景与趋势

(一)阿里巴巴 15 年云计算实际

回顾阿里巴巴十五年来云原生倒退的路线,大抵分为三个阶段。

第一个阶段是 2006 年~2015 年的 利用架构互联网化阶段,是云原生从 0 到 1 的过程。最早的时候,阿里巴巴在淘宝上做中间件,那是最早的云的雏形。过后咱们钻研的是 Oracle 数据库和 IBM 的小型机。但阿里巴巴发现一个问题,就是随着淘宝流量越来越大,Oracle 的机器无奈持续满足业务需要,三个月之后,咱们的数据将存不下也算不了。这是十分重大的问题,所以过后阿里巴巴启动了去 IOE 的打算。

这个时候,阿里巴巴发现咱们的业务做得十分好,但技术上有很多挑战。因而,阿里巴巴在 2009 年成立了阿里云,自研飞天操作系统,开启云化时代,淘宝和天猫合并建设业务中台,届时三大中间件外围零碎上线。

飞天操作系统基于 Apsara,是一个分布式的操作系统。在根底公共模块之上有两个最外围的服务:盘古和伏羲。盘古是存储管理服务,伏羲是资源调度服务,飞天内核之上利用的存储和资源的调配都是由盘古和伏羲治理。飞天外围服务分为:计算、存储、数据库、网络。

为了帮忙开发者便捷地构建云上利用,飞天提供了丰盛的连贯、编排服务,将这些外围服务不便地连贯和组织起来,包含:告诉、队列、资源编排、分布式事务管理等等。

飞天最顶层是阿里云打造的软件交易与交付第一平台 —- 云市场。它如同云计算的“App Store”,用户可在阿里云官网一键开明“软件 + 云计算资源”。云市场上架在售商品几千个,反对镜像、容器、编排、API、SaaS、服务、下载等类型的软件与服务接入。

这就是最早的云的根底框架,也是一个云原生的架构。

从 2011 年开始,咱们开始做容器调度,在团体外面开始做在线业务,在线的业务开始走容器化。到了 2013 年,自研飞天操作系统全面撑持团体业务。

2015 年,阿里云的云原生技术不单是给阿里巴巴的外部业务应用,也开始对外做商业化,以上就是第一阶段。

第二阶段是 2016 年~2019 年的 外围零碎全面云原生化阶段

从 2017 年开始,咱们不只做在线了,离线也全副采纳了云原生的技术。双 11 购物节有大量的交易数据,这些数据的后盾剖析和前期解决都是交给离线实现。咱们基于云原生把在线和离线的底层资源池对立,撑持百万级规模电商交易。

到了 2019 年,阿里巴巴外围零碎 100% 上云,这其实十分难,因为阿里巴巴的业务量十分微小,任何一般的零碎都无奈撑持。

第三阶段是 2020 年至今,是 全面降级下一代云原生技术的阶段。阿里巴巴成立云原生技术委员会,云原生降级为阿里技术新策略。阿里巴巴外围零碎全面应用云原生产品撑持大促。阿里云云原生技术全面降级,Serverless 时代开启。

(二)阿里云对于云计算的断言

阿里巴巴是怎么对待云计算的?云计算和传统技术的差异到底是什么?

举个例子,在一个家家户户都须要挖井的村庄里,每家依据自家人口数量、大略须要的出水量、是否会有客人来等等因素,决定挖多宽的井。如果遇上家里客人比拟多或者干旱了等情况,水可能就不够用了。除了挖井的老本外,日常保护这口井,也须要很高的老本。

上述场景映射到企业中,就是企业基于本人的 IT 根底,还要到运营商那里买个机房,买几台服务器来撑持本人的服务。如果后续这些机器闲置的话,企业依然须要领取一大笔费用,老本十分高。

云解决的问题就是通过虚拟化的技术实现资源池化,用上方挖井例子来形容就是建一个自来水厂。自来水厂和井的差异在于,第一,供水量很大,即便来 100 个客人,供水量也能满足需要。第二,后期不须要投入大量老本去挖井,而是依据用水需要按量计费。即便接通自来水管道,如果不必,那么永远也不须要为它付费。

这为企业带来了两大益处,第一个是企业须要做疾速决策的时候,不必花大量工夫去“挖井”,而是开箱即用。第二是后期投入老本很低。

这就是云带来的益处,那么什么是云原生呢?

云原生是个规范服务,很多货色咱们不须要提前布局。比方我要做数字化转型,需要很简略。我须要有人给我提供这个服务,我要多少,他给我调配多少,不须要我去做提前的筹备。随着我业务的增长,它底下的基础设施可能随之一起增长,具备十分好的弹性。这也大大地缩小企业老本与精力,能够更加专一地去做最善于的事件,大幅晋升效率。

通过以上的例子,上面这几点就十分好了解了。

首先,咱们认为容器 +K8s 会成为云计算的新界面,这是将来的一个趋势。

其次,整个软件生命周期也会发生变化。原来软件的生命周期很长,当初通过云原生的技术能够做到迭代速度越来越快,向下延长软硬一体化、向上延长架构现代化等都能够去做。

最初,减速企业数字化降级。原来做企业数字化转型非常复杂,可能要买机器、买数据库、买利用,须要三年五载的工夫来实现。而现在的企业数字化转型,只花短短数月的工夫,便可实现齐全转型。

(三)业界趋势:数据生产 / 解决正在产生量变

从业界趋势上看,将来数据会产生什么变动,给利用带来什么变动?

首先,咱们认为将来数据肯定会规模爆炸性增长。2020 年寰球数据规模约为 40 ZB。40 ZB 是什么概念?举个例子,假如每部电影是 1GB,假如全世界每个人都去看一部电影,那么这些数据量加起来大略就是 40ZB。

除此之外,咱们预计 2025 年的寰球数据规模将会是 2020 年的 430%,寰球数据规模每年都在增长。

第二个是数据生产 / 解决实时化。原先咱们可能一个月看一次报表,通过大数据,咱们能够每天看一次昨天的数据。数据越来越实时化,可能实现秒级响应。以营销场景为例,在双十一购物节场景,当商家发现店铺的某个流动不能产生成果,那么能够在一分钟或者数分钟之内调整广告或投放策略,从而达到更好的营销成果。如果数据是按天反馈,在 11 月 12 日看到数据的时候,做流动带来的成果曾经大大降低了。因而,数据实时化在这样相似的场景中,扮演着非常重要的角色,数据的实时也会带来利用的实时。

第三是数据生产 / 解决智能化。目前在所有数据中,非结构化数据占比 80%,次要包含文本、图形、图像、音频、视频等,尤其是在当下热门的直播畛域,对非结构化数据进行智能化解决,可能晓得观众的爱好与其余信息,不便业务更好地发展。除此之外,非结构化数据以每年减少 55% 的速度持续增长,将来将成为数据分析十分重要的一个起源。

第四个是数据减速上云。咱们认为数据上云势不可挡,正如汽油车终将被电车代替一样。预计到 2025 年的时候,数据存储云上规模为 49%,2023 年数据库上云规模 75%。

(四)业界趋势:云计算减速数据库系统演进

另一个业界趋势不容疏忽:云计算减速数据库系统演进。

首先咱们看一下数据库倒退历程。早在八九十年代数据库就曾经诞生,那时候次要是商业数据库,如 Oracle、IBM DB2 等,这外面有些数据库还占据这现在的市场。

到 90 年代,开源数据库开始涌现,如 PostgreSQL、MySQL 等。国内用 MySQL 比拟多,国外用 PostgreSQL 比拟多。到 90 年代当前,数据量越来越大,原来数量小的时候可能用 PostgreSQL 或 MySQL,单机就能够解决问题,随着数据量爆炸性增长,就须要像分布式或小型机的形式去解决大量数据和剖析问题。

数据分析的重要性体现在哪里?

举个例子,有个数据仓库 Snowflake 的公司在刚上市的时候就达到 1000 亿美金的市值,现在也有 700 亿美金,对于一个只做一款产品的公司来说,这是一个十分高的市值。为什么它的市值这么高?

前段时间和一位老师交换,他说对于当初的企业,尤其是电商或直播等互联网企业,新近他们企业最大的老本是人力,员工工资占据次要收入。但现在最大的收入是信息和数据,为了公司将来的倒退布局,须要领有大量的数据来剖析以后客户最想要什么,最须要什么,业界的倒退是什么。因而,公司须要大量购买数据、做大量的数据分析,这方面的老本曾经超过了人员老本。这也是为什么一个只做数据仓库的公司,市值可能达到 700 亿美金。

2000 年当前大家开始用 Hadoop、Spark,2010 年开始呈现云原生、一体化分布式等产品,例如 AWS、AnalyticDB 等。

(五)业界趋势:数据仓库减速从 Big Data 向 Cloud-Native + Fast Data 演进

上方是数据仓库的演进历史,计算形式从离线到在线,再到离在线一体化,而后到分布式。性能从统计到 AI,数据类型也从结构化到结构化与非结构化多模交融,负载从 OLAP 到 HTAP,硬件也降级为软硬件一体化,交付从 On-Premise 到 Cloud – Native + Serverless。

在演进的不同过程中,有着各式各样的产品做撑持。

(六)数据库系统架构演进

上图为数据库系统架构演进,简略的逻辑能够了解为,原来是一个厂房一个人干活,起初变成一个厂房十个人干活,而后再倒退成多个厂房多集体干活,这就是整个数据仓库的倒退历史,由原来的单机变成分布式,并且一份数据多集体应用。

数据库的倒退也跟人类工作一样,原来有的店夫妻二人就能够维持,一个人负责生产,另一个人负责销售。随着倒退,店里的顾客越来越多,店还是一个店,但员工可能有十个人了。再起初,业务倒退更多大了,一下招 10 万个员工,而后在 10 个场地去干,这就是分布式云原生数据仓库。

(七)业界趋势:云原生数据库关键技术

上方是云原生数据库的关键技术。

这里简略说两个技术,首先是云原生,云原生是什么意思呢?如果某位用户买了个数据库,当业务量少的时候,或者在法定节假日不应用的时候,免费就少,而在业务量大的时候,免费就多一些。按需按量免费,这是咱们对数据仓库的一个要求。

另外一个是平安可信,举个例子,阿里巴巴有一个投资部,如果给 A 公司投了 500 万,给 B 公司投了 100 万,这些信息都是高度私密,不可对外泄露的。如果这些信息是由员工进行治理,员工存在到职的可能,而一旦到职后产生泄密行为,这在法律层面也很难追责。如何让这种高度私密的信息齐全加密,使得就算是领有最高权限的 DBA 也无奈查看这类信息,做到平安可信。后文将对此做具体开展。

二、云原生与大数据利用

(一)业务面临的挑战

业务面临着许多挑战,次要有四个方面。

首先是数据散乱、不统一,也有十分多的数据源,把数据收集起来是一个很大挑战。

其次是零碎极其简单,零碎或组件有 40+ 个。原来可能基于 Hadoop,当初须要十分多的零碎或组件,底下可能是 HDFS,下面是 YARN、HBase,再往上还有 Hive、Flink 等许多货色,非常复杂。

除此之外还有剖析不实时,它的数据只能做 T +1,是传统大数据架构。

最初是高学习老本,不同技术的版本迭代速度很快,学习老本很高。

(二)云原生数据仓库 + 云原生数据湖构建新一代数据存储、解决计划

阿里云过后采纳的是从一个最简略的架构,通过一个或两个产品就能解决整套产品的架构,可能让用户用得更简略,用 SQL 就能够解决各种各样的问题。比如原来的 OSS 数据,各个生产解决的数据大集中剖析等。

(三)云原生数据仓库:云原生

云原生数据仓库的云原生个性次要体现在,如果就一条数据,那么只会调配一条数据的存储,如果数据量增长,它会主动调配更多的存储。

同样的,计算也是这样,如果没有计算需要或者剖析需要,它不会分配资源,只有来了需要,才会分配资源进行计算或剖析,整个做到按需按量付费,加上资源的弹性。

(四)云原生数据仓库: 数据库与大数据一体化

下面是云原生数据仓库中的关键技术,例如行列混存,可能反对高吞吐写入和高并发查问。

其次是混合负载,就是下面既能够跑 ETL,又能够做查问。

此外还有智能索引。数据库外面很重要的一个点是须要了解业务,了解 Index,要晓得什么对查问有影响,什么对写入有影响,所以咱们心愿这个货色可能做得更智能,让用户不必治理这些货色。

(五)新一代数据仓库解决方案

上方为新一代数据仓库解决方案架构图。最底层是数仓,下面是数仓模型,阿里在淘宝指数,数据洞察等方面做了十分多的模型,包含通过一个 ID 把所有的信息关联起来。这些信息汇聚成模型。模型上有数据构建治理引擎,能够做数仓布局,代码研发,数据资产治理,数据服务等。

最下面是业务赋能,有许多的利用,包含监管报送类,经营决策类,危险预警类和营销与经营类。

(六)云上数据安全

对于云上数据安全的问题,咱们开展来讲。每个公司都有绝密的数据,这些数据面临着许多平安问题,例如管理员 / 用户越权操作,窃取数据备份,歹意批改数据等。除此之外,还有数据在存储、查问、共享过程中全程加密,任何人 (包含管理员) 无奈获取明文数据。保障日志在不可信环境中的完整性,任何人 (包含管理员) 无奈篡改日志文件。保障查问后果在不可信环境中的正确性,任何人 (包含管理员) 无奈篡改查问后果。

以前的解法很简略,就是写到数据库的时候就把数据加密了,例如写进去叫 123,通过加密就变成了乱序,如 213,312 等。这个看似是一个很好的办法,但它有什么问题呢?它没有方法做查问,比如咱们要查超过 50 块钱的交易,然而因为 50 通过加密当前就不是 50 了,可能就变成了 500,而原来 500 加密完就是 50,因而这个查问无奈进行,相当于它变成了一个存储,无奈做剖析查问。

(七)云端全程加密数据永不泄露

有没有一种办法能让咱们做数据分析,同时既能窃密,原来的 SQL 也都能去做?

这外面外围的事件就是咱们采纳的硬件,通过 ApsaraDB RDS(PostgreSQL 版)+ 神龙裸金属服务器(平安芯片 TEE 技术),能够提前把 Key 存到外面去,而后所有的计算和逻辑都在加密硬件中进行。因为整个过程受加密硬件爱护,即便有人把零碎的内存全副复制进去,复制进去的数据也全是加密过的,这就保障运维人员就算拿到绝密数据也没有泄露的危险。

三、最佳实际

上面咱们看一下几个最佳实际:

DMP:全链路营销

DMP(Data Management Platform)示意数据管理平台,也叫数据营销平台。

营销最外围的事件是什么?营销最外围的事件是找人,找到最关怀的一群人,业余词称为圈人。

举个例子,什么场景须要圈人?比方明天咱们想找一下对云原生感兴趣的人来一起探讨云原生。把对云原生感兴趣的人找到,这个过程就叫圈人。

还有一种是相似于天猫淘宝报告,例如在双十一前的一段时间,商家认为某位客户往年可能要买个衣服或买一个包,是潜在客户,于是就去给 TA 推一些生产券等。

这外面最要害的就是精准人群的定位,可能精准地把人群辨别进去。中国大略有电商生产人群大略有 8 亿人,给对某样物品感兴趣的人群推送音讯,这外面最外围的就是圈人的事件。

阿里巴巴基于数仓去做圈人的事件,首先去找一些种子人群,这些种子人群数量大略为几百万人,是咱们认为的高优质客户,比方每个月在淘宝上花 5000 块以上或 1 万块以上的人。把人群全进去后,第二步是将群体进行聚类。

聚类的意思是把几百万人再分成几个小类,每一类外面可能喜爱一个类别,比如这一类喜爱买化妆品,另一类喜爱数码产品,还有一类喜爱买书。划分完小类当前,比方爱买化妆品的可能有 10 万人,但这 10 万人可能大部分之前曾经买过化妆品了,这次大概率不买了。

因而,咱们须要在在 8 亿生产人群中找到真正可能买化妆品的人,该怎么做呢?

咱们须要把每个客户的消费行为和历史购买记录转成 AI 模型的一个向量,如果有两位客户的购买行为是相似的,那么他们的向量间隔就会十分小,这样的话咱们的做法就很简略。例如,咱们对数码产品感兴趣的人作为种子放到 8 亿外面去找,跟这些人种子向量间隔最近的如果有 1000 万人,而后对这 1000 万人去发数码产品的广告或优惠券等,用这种形式去做业务营销。

这个过程最外围的有几个方面。

第一个是将人群进行聚类,把人群划分,晓得 TA 的历史交易,数据必须要可能反对任意维度多维分析。

第二个是可能对整个数仓外面的数据做具体的剖析。

第三个是聚类后的向量近似度检索,找出与每个类向量相近的人群进行音讯推送。

这就是咱们领有的能力,目前是基于 AnalyticDB 实现。

还有一个事件是要做 Ad-hoc 查问。例如,咱们要找到对数码感兴趣的人群,,且去年没有买过比方 iPhone 12 的人,这样他往年才可能买 iPhone12。或者说去年买了 iPhone12,同时又买了 AirPods 的人,那咱们认为大概率他可能会买苹果的键盘,或者是苹果的电脑等。咱们须要对这些人做各种各样的交易查问,从而精准地找到咱们的指标人群。

广告精细化治理

业务挑战:

1)投放关键词搜寻事件须要高并发实时入库;

2)所有用户通过仪表板同时查问转化率,简单查问 QPS 高;

3)响应工夫要求高,防止错过调价黄金时段。

业务价值:

1)多个站点、多个店铺的关键词对立治理;

2)解决上万 TPS 并发写;

3)海量数据实时剖析,按时段智能调价;

4)键词疾速辨认剖析,最大化收益。

在线电商

业务挑战:

1)传统 MySQL 数据库剖析满,千万级 / 亿级简单报表无奈返回;

2)简单报表秒级返回;

3)兼容 MySQL 生态;

4)业务倒退迅速,对计算存储有不同要求。

业务价值:

1)RDS + AnalyticDB 实现 HTAP 联结计划,业务和剖析隔离;

2)2-10 倍剖析性能晋升;

3)分布式架构,横向扩大,灵便变配,反对数据量和访问量的不同需要

这就是 2020 年至今,全面降级下一代云原生技术的阶段 —-Serverless 时代。阿里巴巴成立云原生技术委员会,云原生降级为阿里技术新策略,将来云原生数据仓库还会有更多新性能,为行业解决更外围的痛点,敬请期待。

相干浏览:

云原生数据仓库 AnalyticDB MySQL 版

云原生数据仓库 AnalyticDB PostgreSQL 版

版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

退出移动版