共计 7528 个字符,预计需要花费 19 分钟才能阅读完成。
简介:在日前的 2021 阿里云金融数据智能峰会——《云原生驱动数智化经营的“增长黑马”》专场上,阿里云数据库资深技术专家魏闯先 从数据价值链路角度切入,为大家解读云原生数据仓库如何撑持数据化经营、全链路营销和阿里团体双 11 业务,并展现金融客户最佳实际案例和利用场景。本文内容依据演讲录音及 PPT 整顿而成。
在日前的 2021 阿里云金融数据智能峰会——《云原生驱动数智化经营的“增长黑马”》专场上,阿里云数据库资深技术专家魏闯先 从数据价值链路角度切入,为大家解读云原生数据仓库如何撑持数据化经营、全链路营销和阿里团体双 11 业务,并展现金融客户最佳实际案例和利用场景。本文内容依据演讲录音及 PPT 整顿而成。
阿里云数据库资深技术专家魏闯先
一、背景与趋势
(一)阿里巴巴 15 年云计算实际
回顾阿里巴巴十五年来云原生倒退的路线,大抵分为三个阶段。
第一个阶段是 2006 年~2015 年的 利用架构互联网化阶段,是云原生从 0 到 1 的过程。最早的时候,阿里巴巴在淘宝上做中间件,那是最早的云的雏形。过后咱们钻研的是 Oracle 数据库和 IBM 的小型机。但阿里巴巴发现一个问题,就是随着淘宝流量越来越大,Oracle 的机器无奈持续满足业务需要,三个月之后,咱们的数据将存不下也算不了。这是十分重大的问题,所以过后阿里巴巴启动了去 IOE 的打算。
这个时候,阿里巴巴发现咱们的业务做得十分好,但技术上有很多挑战。因而,阿里巴巴在 2009 年成立了阿里云,自研飞天操作系统,开启云化时代,淘宝和天猫合并建设业务中台,届时三大中间件外围零碎上线。
飞天操作系统基于 Apsara,是一个分布式的操作系统。在根底公共模块之上有两个最外围的服务:盘古和伏羲。盘古是存储管理服务,伏羲是资源调度服务,飞天内核之上利用的存储和资源的调配都是由盘古和伏羲治理。飞天外围服务分为:计算、存储、数据库、网络。
为了帮忙开发者便捷地构建云上利用,飞天提供了丰盛的连贯、编排服务,将这些外围服务不便地连贯和组织起来,包含:告诉、队列、资源编排、分布式事务管理等等。
飞天最顶层是阿里云打造的软件交易与交付第一平台 —- 云市场。它如同云计算的“App Store”,用户可在阿里云官网一键开明“软件 + 云计算资源”。云市场上架在售商品几千个,反对镜像、容器、编排、API、SaaS、服务、下载等类型的软件与服务接入。
这就是最早的云的根底框架,也是一个云原生的架构。
从 2011 年开始,咱们开始做容器调度,在团体外面开始做在线业务,在线的业务开始走容器化。到了 2013 年,自研飞天操作系统全面撑持团体业务。
2015 年,阿里云的云原生技术不单是给阿里巴巴的外部业务应用,也开始对外做商业化,以上就是第一阶段。
第二阶段是 2016 年~2019 年的 外围零碎全面云原生化阶段。
从 2017 年开始,咱们不只做在线了,离线也全副采纳了云原生的技术。双 11 购物节有大量的交易数据,这些数据的后盾剖析和前期解决都是交给离线实现。咱们基于云原生把在线和离线的底层资源池对立,撑持百万级规模电商交易。
到了 2019 年,阿里巴巴外围零碎 100% 上云,这其实十分难,因为阿里巴巴的业务量十分微小,任何一般的零碎都无奈撑持。
第三阶段是 2020 年至今,是 全面降级下一代云原生技术的阶段。阿里巴巴成立云原生技术委员会,云原生降级为阿里技术新策略。阿里巴巴外围零碎全面应用云原生产品撑持大促。阿里云云原生技术全面降级,Serverless 时代开启。
(二)阿里云对于云计算的断言
阿里巴巴是怎么对待云计算的?云计算和传统技术的差异到底是什么?
举个例子,在一个家家户户都须要挖井的村庄里,每家依据自家人口数量、大略须要的出水量、是否会有客人来等等因素,决定挖多宽的井。如果遇上家里客人比拟多或者干旱了等情况,水可能就不够用了。除了挖井的老本外,日常保护这口井,也须要很高的老本。
上述场景映射到企业中,就是企业基于本人的 IT 根底,还要到运营商那里买个机房,买几台服务器来撑持本人的服务。如果后续这些机器闲置的话,企业依然须要领取一大笔费用,老本十分高。
云解决的问题就是通过虚拟化的技术实现资源池化,用上方挖井例子来形容就是建一个自来水厂。自来水厂和井的差异在于,第一,供水量很大,即便来 100 个客人,供水量也能满足需要。第二,后期不须要投入大量老本去挖井,而是依据用水需要按量计费。即便接通自来水管道,如果不必,那么永远也不须要为它付费。
这为企业带来了两大益处,第一个是企业须要做疾速决策的时候,不必花大量工夫去“挖井”,而是开箱即用。第二是后期投入老本很低。
这就是云带来的益处,那么什么是云原生呢?
云原生是个规范服务,很多货色咱们不须要提前布局。比方我要做数字化转型,需要很简略。我须要有人给我提供这个服务,我要多少,他给我调配多少,不须要我去做提前的筹备。随着我业务的增长,它底下的基础设施可能随之一起增长,具备十分好的弹性。这也大大地缩小企业老本与精力,能够更加专一地去做最善于的事件,大幅晋升效率。
通过以上的例子,上面这几点就十分好了解了。
首先,咱们认为容器 +K8s 会成为云计算的新界面,这是将来的一个趋势。
其次,整个软件生命周期也会发生变化。原来软件的生命周期很长,当初通过云原生的技术能够做到迭代速度越来越快,向下延长软硬一体化、向上延长架构现代化等都能够去做。
最初,减速企业数字化降级。原来做企业数字化转型非常复杂,可能要买机器、买数据库、买利用,须要三年五载的工夫来实现。而现在的企业数字化转型,只花短短数月的工夫,便可实现齐全转型。
(三)业界趋势:数据生产 / 解决正在产生量变
从业界趋势上看,将来数据会产生什么变动,给利用带来什么变动?
首先,咱们认为将来数据肯定会规模爆炸性增长。2020 年寰球数据规模约为 40 ZB。40 ZB 是什么概念?举个例子,假如每部电影是 1GB,假如全世界每个人都去看一部电影,那么这些数据量加起来大略就是 40ZB。
除此之外,咱们预计 2025 年的寰球数据规模将会是 2020 年的 430%,寰球数据规模每年都在增长。
第二个是数据生产 / 解决实时化。原先咱们可能一个月看一次报表,通过大数据,咱们能够每天看一次昨天的数据。数据越来越实时化,可能实现秒级响应。以营销场景为例,在双十一购物节场景,当商家发现店铺的某个流动不能产生成果,那么能够在一分钟或者数分钟之内调整广告或投放策略,从而达到更好的营销成果。如果数据是按天反馈,在 11 月 12 日看到数据的时候,做流动带来的成果曾经大大降低了。因而,数据实时化在这样相似的场景中,扮演着非常重要的角色,数据的实时也会带来利用的实时。
第三是数据生产 / 解决智能化。目前在所有数据中,非结构化数据占比 80%,次要包含文本、图形、图像、音频、视频等,尤其是在当下热门的直播畛域,对非结构化数据进行智能化解决,可能晓得观众的爱好与其余信息,不便业务更好地发展。除此之外,非结构化数据以每年减少 55% 的速度持续增长,将来将成为数据分析十分重要的一个起源。
第四个是数据减速上云。咱们认为数据上云势不可挡,正如汽油车终将被电车代替一样。预计到 2025 年的时候,数据存储云上规模为 49%,2023 年数据库上云规模 75%。
(四)业界趋势:云计算减速数据库系统演进
另一个业界趋势不容疏忽:云计算减速数据库系统演进。
首先咱们看一下数据库倒退历程。早在八九十年代数据库就曾经诞生,那时候次要是商业数据库,如 Oracle、IBM DB2 等,这外面有些数据库还占据这现在的市场。
到 90 年代,开源数据库开始涌现,如 PostgreSQL、MySQL 等。国内用 MySQL 比拟多,国外用 PostgreSQL 比拟多。到 90 年代当前,数据量越来越大,原来数量小的时候可能用 PostgreSQL 或 MySQL,单机就能够解决问题,随着数据量爆炸性增长,就须要像分布式或小型机的形式去解决大量数据和剖析问题。
数据分析的重要性体现在哪里?
举个例子,有个数据仓库 Snowflake 的公司在刚上市的时候就达到 1000 亿美金的市值,现在也有 700 亿美金,对于一个只做一款产品的公司来说,这是一个十分高的市值。为什么它的市值这么高?
前段时间和一位老师交换,他说对于当初的企业,尤其是电商或直播等互联网企业,新近他们企业最大的老本是人力,员工工资占据次要收入。但现在最大的收入是信息和数据,为了公司将来的倒退布局,须要领有大量的数据来剖析以后客户最想要什么,最须要什么,业界的倒退是什么。因而,公司须要大量购买数据、做大量的数据分析,这方面的老本曾经超过了人员老本。这也是为什么一个只做数据仓库的公司,市值可能达到 700 亿美金。
2000 年当前大家开始用 Hadoop、Spark,2010 年开始呈现云原生、一体化分布式等产品,例如 AWS、AnalyticDB 等。
(五)业界趋势:数据仓库减速从 Big Data 向 Cloud-Native + Fast Data 演进
上方是数据仓库的演进历史,计算形式从离线到在线,再到离在线一体化,而后到分布式。性能从统计到 AI,数据类型也从结构化到结构化与非结构化多模交融,负载从 OLAP 到 HTAP,硬件也降级为软硬件一体化,交付从 On-Premise 到 Cloud – Native + Serverless。
在演进的不同过程中,有着各式各样的产品做撑持。
(六)数据库系统架构演进
上图为数据库系统架构演进,简略的逻辑能够了解为,原来是一个厂房一个人干活,起初变成一个厂房十个人干活,而后再倒退成多个厂房多集体干活,这就是整个数据仓库的倒退历史,由原来的单机变成分布式,并且一份数据多集体应用。
数据库的倒退也跟人类工作一样,原来有的店夫妻二人就能够维持,一个人负责生产,另一个人负责销售。随着倒退,店里的顾客越来越多,店还是一个店,但员工可能有十个人了。再起初,业务倒退更多大了,一下招 10 万个员工,而后在 10 个场地去干,这就是分布式云原生数据仓库。
(七)业界趋势:云原生数据库关键技术
上方是云原生数据库的关键技术。
这里简略说两个技术,首先是云原生,云原生是什么意思呢?如果某位用户买了个数据库,当业务量少的时候,或者在法定节假日不应用的时候,免费就少,而在业务量大的时候,免费就多一些。按需按量免费,这是咱们对数据仓库的一个要求。
另外一个是平安可信,举个例子,阿里巴巴有一个投资部,如果给 A 公司投了 500 万,给 B 公司投了 100 万,这些信息都是高度私密,不可对外泄露的。如果这些信息是由员工进行治理,员工存在到职的可能,而一旦到职后产生泄密行为,这在法律层面也很难追责。如何让这种高度私密的信息齐全加密,使得就算是领有最高权限的 DBA 也无奈查看这类信息,做到平安可信。后文将对此做具体开展。
二、云原生与大数据利用
(一)业务面临的挑战
业务面临着许多挑战,次要有四个方面。
首先是数据散乱、不统一,也有十分多的数据源,把数据收集起来是一个很大挑战。
其次是零碎极其简单,零碎或组件有 40+ 个。原来可能基于 Hadoop,当初须要十分多的零碎或组件,底下可能是 HDFS,下面是 YARN、HBase,再往上还有 Hive、Flink 等许多货色,非常复杂。
除此之外还有剖析不实时,它的数据只能做 T +1,是传统大数据架构。
最初是高学习老本,不同技术的版本迭代速度很快,学习老本很高。
(二)云原生数据仓库 + 云原生数据湖构建新一代数据存储、解决计划
阿里云过后采纳的是从一个最简略的架构,通过一个或两个产品就能解决整套产品的架构,可能让用户用得更简略,用 SQL 就能够解决各种各样的问题。比如原来的 OSS 数据,各个生产解决的数据大集中剖析等。
(三)云原生数据仓库:云原生
云原生数据仓库的云原生个性次要体现在,如果就一条数据,那么只会调配一条数据的存储,如果数据量增长,它会主动调配更多的存储。
同样的,计算也是这样,如果没有计算需要或者剖析需要,它不会分配资源,只有来了需要,才会分配资源进行计算或剖析,整个做到按需按量付费,加上资源的弹性。
(四)云原生数据仓库: 数据库与大数据一体化
下面是云原生数据仓库中的关键技术,例如行列混存,可能反对高吞吐写入和高并发查问。
其次是混合负载,就是下面既能够跑 ETL,又能够做查问。
此外还有智能索引。数据库外面很重要的一个点是须要了解业务,了解 Index,要晓得什么对查问有影响,什么对写入有影响,所以咱们心愿这个货色可能做得更智能,让用户不必治理这些货色。
(五)新一代数据仓库解决方案
上方为新一代数据仓库解决方案架构图。最底层是数仓,下面是数仓模型,阿里在淘宝指数,数据洞察等方面做了十分多的模型,包含通过一个 ID 把所有的信息关联起来。这些信息汇聚成模型。模型上有数据构建治理引擎,能够做数仓布局,代码研发,数据资产治理,数据服务等。
最下面是业务赋能,有许多的利用,包含监管报送类,经营决策类,危险预警类和营销与经营类。
(六)云上数据安全
对于云上数据安全的问题,咱们开展来讲。每个公司都有绝密的数据,这些数据面临着许多平安问题,例如管理员 / 用户越权操作,窃取数据备份,歹意批改数据等。除此之外,还有数据在存储、查问、共享过程中全程加密,任何人 (包含管理员) 无奈获取明文数据。保障日志在不可信环境中的完整性,任何人 (包含管理员) 无奈篡改日志文件。保障查问后果在不可信环境中的正确性,任何人 (包含管理员) 无奈篡改查问后果。
以前的解法很简略,就是写到数据库的时候就把数据加密了,例如写进去叫 123,通过加密就变成了乱序,如 213,312 等。这个看似是一个很好的办法,但它有什么问题呢?它没有方法做查问,比如咱们要查超过 50 块钱的交易,然而因为 50 通过加密当前就不是 50 了,可能就变成了 500,而原来 500 加密完就是 50,因而这个查问无奈进行,相当于它变成了一个存储,无奈做剖析查问。
(七)云端全程加密数据永不泄露
有没有一种办法能让咱们做数据分析,同时既能窃密,原来的 SQL 也都能去做?
这外面外围的事件就是咱们采纳的硬件,通过 ApsaraDB RDS(PostgreSQL 版)+ 神龙裸金属服务器(平安芯片 TEE 技术),能够提前把 Key 存到外面去,而后所有的计算和逻辑都在加密硬件中进行。因为整个过程受加密硬件爱护,即便有人把零碎的内存全副复制进去,复制进去的数据也全是加密过的,这就保障运维人员就算拿到绝密数据也没有泄露的危险。
三、最佳实际
上面咱们看一下几个最佳实际:
DMP:全链路营销
DMP(Data Management Platform)示意数据管理平台,也叫数据营销平台。
营销最外围的事件是什么?营销最外围的事件是找人,找到最关怀的一群人,业余词称为圈人。
举个例子,什么场景须要圈人?比方明天咱们想找一下对云原生感兴趣的人来一起探讨云原生。把对云原生感兴趣的人找到,这个过程就叫圈人。
还有一种是相似于天猫淘宝报告,例如在双十一前的一段时间,商家认为某位客户往年可能要买个衣服或买一个包,是潜在客户,于是就去给 TA 推一些生产券等。
这外面最要害的就是精准人群的定位,可能精准地把人群辨别进去。中国大略有电商生产人群大略有 8 亿人,给对某样物品感兴趣的人群推送音讯,这外面最外围的就是圈人的事件。
阿里巴巴基于数仓去做圈人的事件,首先去找一些种子人群,这些种子人群数量大略为几百万人,是咱们认为的高优质客户,比方每个月在淘宝上花 5000 块以上或 1 万块以上的人。把人群全进去后,第二步是将群体进行聚类。
聚类的意思是把几百万人再分成几个小类,每一类外面可能喜爱一个类别,比如这一类喜爱买化妆品,另一类喜爱数码产品,还有一类喜爱买书。划分完小类当前,比方爱买化妆品的可能有 10 万人,但这 10 万人可能大部分之前曾经买过化妆品了,这次大概率不买了。
因而,咱们须要在在 8 亿生产人群中找到真正可能买化妆品的人,该怎么做呢?
咱们须要把每个客户的消费行为和历史购买记录转成 AI 模型的一个向量,如果有两位客户的购买行为是相似的,那么他们的向量间隔就会十分小,这样的话咱们的做法就很简略。例如,咱们对数码产品感兴趣的人作为种子放到 8 亿外面去找,跟这些人种子向量间隔最近的如果有 1000 万人,而后对这 1000 万人去发数码产品的广告或优惠券等,用这种形式去做业务营销。
这个过程最外围的有几个方面。
第一个是将人群进行聚类,把人群划分,晓得 TA 的历史交易,数据必须要可能反对任意维度多维分析。
第二个是可能对整个数仓外面的数据做具体的剖析。
第三个是聚类后的向量近似度检索,找出与每个类向量相近的人群进行音讯推送。
这就是咱们领有的能力,目前是基于 AnalyticDB 实现。
还有一个事件是要做 Ad-hoc 查问。例如,咱们要找到对数码感兴趣的人群,,且去年没有买过比方 iPhone 12 的人,这样他往年才可能买 iPhone12。或者说去年买了 iPhone12,同时又买了 AirPods 的人,那咱们认为大概率他可能会买苹果的键盘,或者是苹果的电脑等。咱们须要对这些人做各种各样的交易查问,从而精准地找到咱们的指标人群。
广告精细化治理
业务挑战:
1)投放关键词搜寻事件须要高并发实时入库;
2)所有用户通过仪表板同时查问转化率,简单查问 QPS 高;
3)响应工夫要求高,防止错过调价黄金时段。
业务价值:
1)多个站点、多个店铺的关键词对立治理;
2)解决上万 TPS 并发写;
3)海量数据实时剖析,按时段智能调价;
4)键词疾速辨认剖析,最大化收益。
在线电商
业务挑战:
1)传统 MySQL 数据库剖析满,千万级 / 亿级简单报表无奈返回;
2)简单报表秒级返回;
3)兼容 MySQL 生态;
4)业务倒退迅速,对计算存储有不同要求。
业务价值:
1)RDS + AnalyticDB 实现 HTAP 联结计划,业务和剖析隔离;
2)2-10 倍剖析性能晋升;
3)分布式架构,横向扩大,灵便变配,反对数据量和访问量的不同需要
这就是 2020 年至今,全面降级下一代云原生技术的阶段 —-Serverless 时代。阿里巴巴成立云原生技术委员会,云原生降级为阿里技术新策略,将来云原生数据仓库还会有更多新性能,为行业解决更外围的痛点,敬请期待。
相干浏览:
云原生数据仓库 AnalyticDB MySQL 版
云原生数据仓库 AnalyticDB PostgreSQL 版
版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。