飞天大数据产品价值解读 — SaaS模式云数据仓库 MaxCompute
摘要:企业在数字化转型过程中面临数据技术平台建设和经营的诸多挑战,随着现代化数据仓库向多功能、服务化方向倒退演进,技术侧的改革为解决企业数据平台各项挑战带来新的可能。MaxCompute作为阿里云飞天大数据中的数据仓库产品,曾经成为了阿里外部及泛滥的内部客户宽泛应用且高度信赖的企业数据平台。本次直播将为您介绍SaaS模式云数据仓库MaxCompute外围能力及劣势,并联合大数据分析平台经典应用场景,为您介绍MaxCompute 为企业带来的业务敏捷性、面向剖析对立平台、显著升高TCO等要害业务价值。
演讲嘉宾简介:曲宁,阿里云智能产品专家。
本次分享次要围绕以下五个方面:
一、飞天大数据平台解决方案
二、MaxCompute:SaaS模式企业级云数据仓库
三、MaxCompute产品价值
四、基于MaxCompute的解决方案及案例介绍
五、总结
一、飞天大数据平台解决方案
企业级数字化转型挑战
目前,企业在数字化转型过程中面临着很多的挑战,这些挑战能够分为几类问题:首先,企业次要以利用为导向,疾速的满足业务需要。为了满足不同部门的业务需要,建设了很多数据平台,这些平台不足整体规划,造成了很多的数据孤岛,数据共享老本高,不足企业级对立的数据获取进口,难以自助剖析。
其次,古代企业要求业务团队具备了面向业务疾速变动的麻利创新能力,须要具备数据智能的研发能力,面向用户体验的场景创新能力,都对IT零碎提出了更高要求。如何可能满足不同团队对数据分析的要求,满足外部用户的开发应用体验,这个过程中开发效率成为了麻利翻新的妨碍因素,从产品的布局到最终的上线往往横跨数月的工夫。
另外,企业过来通过自建大数据平台的形式来取得很强的技术平台掌控能力,但在理论的IDC经营治理过程中会呈现运维老本过高的问题,同时因为IT人才老本高、流动大,自建平台存在服务质量不高的状况。企业往往依照业务需要做资源布局,导致日常资源利用率不高,存在很多资源节约,同时在业务波峰时会产生资源不够的状况。企业自建平台基于开源的组件,会存在系统安全、数据安全及合规方面的问题和隐患。
现代化大数据平台
现代化数据仓库向多功能多服务化演进,技术侧的改革带来了解决企业数字化转型的挑战的可能。现代化大数据平台次要有两个方向,首先是云计算的衰亡,逐渐往SaaS化方向演进,提供按需分配的计算需要。第二点因为传统的数据仓库难以满足现代化大数据的需要,须要建设实时化的数仓,对非结构化数据进行低成本的剖析,同时通过AI能力开掘更深的价值。
飞天大数据平台解决方案
大数据平台解决方案是一种多产品组合的解决方案,通过多种产品间组合,构建多种多样的数据利用。阿里云采纳飞天大数据平台解决方案,此计划实用于电商、游戏、社交等互联网行业数据化经营场景,如智能举荐,日志剖析,业务经营剖析,用户画像,数据治理,业务大屏以及搜寻等。阿里云最佳实际的大数据平台同时具备技术当先性和降本提效,提供业务价值收集等劣势。飞天大数据平台解决方案中MaxCompute作为旗舰产品,成为了十分外围的角色。
二、MaxCompute:SaaS模式企业级云数据仓库
MaxCompute产品劣势
MaxCompute目前的定位是SaaS模式企业级云数据仓库,MaxCompute服务托管在阿里云上,创立超大规模的资源池,由阿里云进行部署和治理,对外提供API接口,用户应用时通过不同的用户端搜寻API的形式拜访应用。MaxCompute免去了开明的步骤,开箱即用。其次MaxCompute有超大的资源池,具备按需应用,高弹性的特点。第三点,MaxCompute是存储计算拆散的架构,提供结构化的存储,提供按需应用的计算资源。在低成本状况下提供较好的可扩展性。
利用场景
MaxCompute在服务化的场景下,宽泛的反对几种场景,首先是to C营销数据分析场景,对用户行为进行收集剖析,构建画像,打标签,为用户做更多的服务。还有针对线上的经营流动,实时收集和查问线上经营状况,做经营策略的变更。同时为各行业大家数据仓库,从而构建更多的数据利用。
MaxCompute产品技术个性
第一点:MaxCompute是全托管的Serverless的在线服务,不须要做资源的开明和治理,用户能够用应用近乎有限的计算资源。同时免去了很多工作,由阿里云做对立的版本升级,资源的伸缩和故障的解决,进一步缩减运维上的投入。
第二点:MaxCompute能够提供最好的弹性能力和扩展性,因为存储与计算拆散的特点,反对TB到EB数据规模的扩大能力,能够让企业将全副数据资产保留在一个平台上进行联动剖析,打消数据孤岛。因为Serverless资源能够实时依据业务峰谷变动带来的需要变动分配资源,进行主动扩大。MaxCompute算力是十分强的,单作业可依据须要秒级取得成千上万Core,当数据级别达到EB级别时,MaxCompute也能很好的反对失常运行。
第三点:MaxCompute交融了数据摸索能力,首先MaxCompute与阿里云的warehouse是深度集成的关系,默认集成了对数据湖(如OSS服务) 的拜访剖析,能够解决非结构化或凋谢格局数据,还反对表面映射、通过Spark间接拜访形式发展数据湖剖析。通过数据仓库与表面的映射,在同一套数据仓库服务下和用户接口下,实现数据湖剖析和数据仓库的关联剖析。第四点:传统的BI能力曾经无奈满足业务需要,企业更多的须要通过AI能力将数据集成到平台中,反对更多的场景。MaxCompute与PAI无缝集成,提供BI+AI一体化的产品能力,从而提供弱小的机器学习解决能力,用户可应用相熟的Spark-ML发展智能剖析,同时能够应用Python机器学习三方库。
第五点:目前,实时剖析成为了很炽热的话题,MaxCompute也反对流式数据的实时写入(Tunnel),并在数据仓库中发展剖析。与云上次要流式服务深度集成,轻松接入各种起源流式数据。MaxCompute能够反对高性能秒级弹性并发查问,满足近实时剖析场景。
第六点:MaxCompute反对多种计算引擎,通过内建Apache Spark引擎,提供残缺的Spark性能。与MaxCompute计算资源、数据和权限体系深度集成。
第七点:MaxCompute提供对立而丰盛的运算能力,包含离线计算(MR,DAG,SQL,ML,Graph)、实时计算(流式,内存计算,迭代计算),涵盖通用关系型大数据,机器学习,非结构化数据处理,图计算等。
第八点:目前,数据中台往往有数据共享的需要,企业的数据资产能够被企业的每个人检索到,每个人晓得有哪些数据,同时通过平安合规的权限管制让每个人能够轻松取得企业数据资产,进行进一步的开发。此时则须要数据中台提供对立的元数据视图,MaxCompute通过提供租户级别的对立元数据,让企业可能轻松取得残缺的企业数据目录,更进一步,对于更宽泛的数据源,通过表面建设数据仓库与内部数据源的连贯。如此,数据中台能够做到无需收集所有数据,然而依然能够为用户提供对立数据视图,满足数据共享的需要。
第九点:MaxCompute不是简略的计算引擎,它是一个残缺的服务,因而提供了 SLA保障:99.9%服务可用性保障,反对自助运维与自动化运维,欠缺的故障容错(软件,硬件,网络,人为)。
三、MaxCompute产品价值
云原生场景
Serverless曾经成为了数据平台的发展趋势,Serverless人造的按需分配,高扩展性的能力是解决数据中台问题的最佳的计划。MaxCompute是Serverless的云原生数据仓库服务,提供超大规模的资源市场,用户感知不到资源池,只是须要在逻辑层做我的项目的开明,数据仓库的自建,数据的建模,在我的项目空间中做数据分析。MaxCompute是一套十分麻利的服务模式,极大的升高数据平台的门槛,将以月为单位的数据处理过程升高到天级别,减速价值实现。
示例: 2 min-从开明MaxCompute服务到基于公共数据集运行第一个SQL查问
进入DataWorks治理控制台,点击创立工作空间,输出工作空间名称、点击下一步抉择MaxCompute按量付费选项、形容实例名称、抉择MaxCompute数据类型及拜访身份。
创立完之后进入DataWorks数据开发的如入口中,开始第一个SQL的解决。MaxCompute提供了面向全网的公共数据集,用户都能够进行查问。整个过程从开明到第一个查问只须要两分钟的工夫。Serverless意味着更麻利的业务响应和疾速试错、翻新。
这种模式带来了两种益处,一种是初创企业能够在低成本的环境下,通过链路疾速将商业场景走通,疾速验证业务价值。其次,在大企业中,有很多新的组织和部门,他们须要独立的环境进行新鲜的开发,MaxCompute能够很好的反对麻利的场景。
Serverless意味着简略、弱小计算能力,无需容量布局、匹配业务疾速变动的需要。下图左侧是一个简单的作业,数据规模十分大,执行单个作业就须要很多资源,MaxCompute能够反对不同规模的数据级,提供弱小的算力。
Serverless模式真正实现了按需(On-demand)分配资源,不再以集群或者队列级别进行资源伸缩,以每个作业为单位动态分配适合的资源,无需用户提前容量布局、打消了资源容量与业务需要不能良好匹配的问题。
然而,咱们理论接触客户过程中发现,不是所有的作业须要最佳的性能,不同企业、不同阶段以及不同的工作类型,用户会思考在老本与性能间有不同的取舍。
不同企业算力需要及偏好存在差别,在企业初创期间,数据级不大,老本不高,然而随着数据级的增长,用户增多,老本会十分高,此时MaxCompute能够提供按需应用的弹性算力。不仅如此,MaxCompute还提供包年包月的套餐,满足惯例需要,帮忙企业稳固财务收入。在企业业务规模较为稳固时,能够购买这类套餐,反对作业优先级,保障要害工作稳固产出。反对存储与计算资源包购买。当面临长期查问需要时,对算力要求十分高,而且不属于周期性需要,MaxCompute通过将多计算资源买通,交融买通包年包月与按需应用的弹性资源,用户只需联结开明,即可实现更优的老本与性能均衡的资源解决方案。最初MaxCompute还能够抢占闲暇资源,抢占并应用服务闲暇计算资源,此时的价格较包年包月规范计算资源降落74%。
多租户零碎
MaxCompute是人造的多租户零碎,在多租户环境下保障租户间的隔离性,同时通过细粒度权限管制,实现跨业务、跨组织间进行数据共享。企业不同的组织和部门将数据对立集中在资源池中,实现对立残缺的数据资产视图。MaxCompute反对跨我的项目间的数据拜访受权,高效、低成本地在企业内共享数据,实现每个人对企业各项数据资源的受控应用。 MaxCompute已成为业界最残缺的平安管理体系,反对跨我的项目数据安全治理、细粒度的访问控制、数据加密、隐衷数据保护、操作应用行为审计能力。
多租户零碎有诸多劣势同时对多租户平台的平安治理能力也提出了更高的要求。如当下安全事件频发,那么云上大数据服务应如何保障企业数据和服务平安?MaxCompute在平台创建之期就是人造的Serverless和多租户的环境,阿里对MaxCompute内置了大量的平安管理机制,这些平安机制提供了全面、多层次的平安治理能力,继续爱护云上数据服务平安。首先是基础设施托管的平安与保障,同时面向访问控制与受权、数据安全、危险管控、多租户平安隔离做了很多治理性能。具体而言,在数据安全方面MaxCompute提供数据加密、实时审计和备份复原等性能。
示例: 用户异样操作行为实时审计+数据主动备份及复原
下图中能够发现tab_dev表被删除了,遇到这种状况常见的治理步骤是先查看谁删除了这种表,MaxCompute提供了历史事件查问的页面。
从下图中能够找到tab_dev表是由谁,在什么工夫,通过什么操作删除了,不便后续追溯。MaxCompute为用户提供了实时审计能力。
Demo3:继续备份与复原
在数据失落之后,重要的数据须要找回。MaxCompute内建了服务级别的主动备份能力,通过如下图中的restore命令,能够找回失落的数据。
面向剖析的对立数据平台
MaxCompute是面向剖析的对立数据平台,一个平台满足数据时代的多种需要,简化企业数据平台架构,减速获取深刻的业务洞察。MaxCompute具备更实时的数据洞察能力,通过在产品级别买通集成音讯服务,采集Datahub自定义日志,实时的获取事件并进行剖析。MaxCompute中有很多数据格式,有些数据格式不适宜放在同一处,MaxCompute能够提供联邦查问的能力,联动数据库系统,数据不加载在同一个库中, 然而能够提供同一种数据处理平台。MaxCompute是面向剖析的数据平台,与 PAI 无缝集成,同时内建支流机器学习框架反对,无需挪动数据取得深刻洞察剖析。
MaxCompute深度集成了Spark,能够实现“一套数据反对多种引擎”,在全托管的对立数据平台上应用支流或者相熟的计算引擎,能够满足更丰盛计算场景的须要。目前很多用户习惯应用Spark引擎,MaxCompute Spark是MaxCompute提供的Apache Spark计算框架,齐全兼容Spark的API、利用及生态工具,共享了同样的数据存储,同样的计算资源,同一种数据库管理体系。MaxCompute我的项目用户,能够在对立的数据存储、权限管控体系内,利用Spark进行利用开发。
现代化的数据仓库 + 数据湖解决方案
数据湖成为了云上数据存储和替换的核心,大量的非结构化数据寄存在OSS上,通过表面或者Spark间接与云上数据湖进行很好的买通,做联邦表面的查问,通过load命令将OSS上的数据疾速的加载到数据仓库中。MaxCompute能够连贯企业多种内部数据源,通过对立、统一的数据管理体系(MaxCompute对立元数据),多种起源的数据可在对立的计算环境中跨孤立存储系统进行无缝数据的拜访和解决。
BI+AI集成的一体化数据平台
实在的人工智能场景依赖大数据平台提供数据供应,进行数据预处理。如何在企业对立的数据资产及平安体系之上,同时发展BI剖析和AI剖析,充沛开掘数据价值? 最现实的状态是不挪动数据,将计算与数据解耦合,在一套平台上解决大数据AI的剖析。 MaxCompute+PAI是大数据与人工智能交融的剖析平台,利用PAI能够很好的解决MaxCompute中的数据,从而反对智能化剖析。
高性能低成本的技术底座
数据平台倒退到目前为止都是在解决性能、老本、效力等几方面的问题,若比照剖析自建平台和MaxCompute中老本的比重,自建平台老本构造次要包含一次性软硬件老本、扩容、治理,运维等等方面的老本。MaxCompute老本后果包含云服务应用老本,但系统管理老本是非常低的。MaxCompute能够极大的缩小后期投入,疾速验证价值。其次,MaxCompute在30TB及100TB数据级上都能够失去很好的性能,相比于Hadoop自建,成本低一半,性能快一倍,失去了TPC组织的官网认可。MaxCompute能够提供高性能、低成本的大数据分析服务。通过比照IDC自建平台与MaxCompute的老本,MaxCompute能够节俭1/3的实在TCO老本。
MaxCompute不止在离线仓上有很强的算力的能力,同时面向BI和集成剖析场景,反对弹性并发减速的能力。从下图能够发现,MaxCompute在不同的规模的测试集上都有十分优良的体现。
凋谢生态的数据平台
抛开独立的技术平台,离不开周边零碎的配套,离不开与企业环境的集成。MaxCompute领有凋谢生态的服务,反对与泛滥服务集成,包含凋谢的一方服务接口,如MaxCompute Studio IDE、JDBC、SDK、开源Spark Connector、开源Kafka Connector、MMA迁徙工具等。同时MaxCompute能够融入企业已有的IT环境中,与阿里云泛滥的服务进行深度的集成,包含DataWorks、PAI、Quick BI、Datahub、DTS、日志服务、阿里云Kafka等,最大化升高数据链路集成工作。MaxCompute 还集成了很多第三方的服务,包含Tableau、R、Python、Python SDK等,最终晋升开发效率。阿里云提供了残缺的大数据产品解决方案,包含数据的采集,实时离线一体化计算、数据利用的展现,以MaxCompute 作为数据仓库的底座能够疾速的与阿里云多个产品集成,满足企业的智能化利用需要。
企业级可治理的数据管理平台
当企业倒退到肯定规模后,必然会遇到数据治理问题。数据与业务增长并不是线性关系,数据是指数级增长,业务是平滑增长。各个数据平台买通之后,数据治理的老本越来越高。阿里巴巴大数据治理最佳实际,提供数据发现机制,反对对立元数据采集与数据资产目录构建反对数据探查与数据分析、联邦查问以及资源优化服务,让企业更不便地探查数据价值,更无效的对立元数据管理,更平安的生产数据,更智能的优化大数据老本。以数据存储为例,很多数据存储在数据仓库中但无奈应用,有些作业没有计算,有些作业反复计算,阿里通过自动化形式,围绕引擎采集第一手数据,提供多畛域多视角优化视图。
四、基于MaxCompute的解决方案及案例介绍
MaxCompute可能解决自建数据平台的痛点问题
自建平台面临着很多的挑战,包含建设老本高、扩展性与弹性有余、资源利用率低、运维保护老本低等。MaxCompute 云上的服务能够很大水平上解决云下的痛点问题。因而,迁徙上云(MMA)曾经成为了比拟成熟的解决方案,次要包含数据迁徙的评估,数据迁徙,作业迁徙转换等,从而将自建平台迁徙到云上,使得MaxCompute 云上服务的个性和劣势被企业所用。
大数据上云解决方案
大数据搬站是云上生态体系的融和与降级,阿里云就能够提供一套残缺的飞天大数据平台解决方案。某母婴行业头部客户在自建数据平台是遇到了很多的痛点,包含集群水位高、性能差、亟待大数据综合治理。同时IDC大数据每年投入老本高,心愿降本提效。阿里云从大数据平台上云整体“降本增效”的计划疾速切入,迁徙到大数据MaxCompute、实时计算、
DataWorks 后,局部工作有10倍以上的性能晋升,将开源数据格式进行转换,存储从自建Hadoop 3PB降到900T,利用Flink实时数据处理能力,将母婴客户现有的场景实时化(“基于用户ID维度和内容类型的实时行为”、“获取用户的实时群聊ID”及“获取文章的实时公布信息”),并且基于Flink进行实时举荐减少转化率。大数据平台整体老本节俭了30%以上。
智能实时数仓解决方案
智能实时数仓解决方案实用于电商、游戏、社交等互联网行业大规模数据实时查问场景。计划劣势包含阿里云实时数仓全套链路,与离线数仓无缝买通。满足一套存储,两种计算(实时计算和离线计算)的高性价比组合。某视频行业客户基于MaxCompute+Realtime Compute+Hologres的组合,做指标用户标签数据开发、用户画像实时洞察、实时视频举荐等工作。MaxCompute开箱即用、欠缺生态、性能强悍、弹性资源的个性使得客户能够最大化的均衡老本和弹性的须要。基于MaxCompute能够反对数据分层、反作弊、计算优化、存储优化等场景。
MaxCompute产品规格
MaxCompute提供按量计费能力,用户初期应用时,倡议抉择按量计费,依据业务的变动,匹配资源,开明后不应用时无费用产生。当用户业务比拟成熟时,倡议抉择包年包月,单价更低,享受更多折扣,管制相干估算和老本。
免费规范
按量计费中仍然提供极致的弹性计算资源,资源池为共享型,计算工作按需抢占,不可指定使用量也无应用限度。以后仅SQL、MR、Spark、交互式剖析几类计算工作有计费。存储资源只收表(Table)存储的容量费用。且容量大小是压缩后的数据。存储资源中的资源池为共享型,按需存储,无应用限度。包含表(Table)和资源(Resource)等存储。数据上传至MaxCompute为收费,仅对通过公网下载,进行按量免费。包年包月标准版中的计算资源蕴含计算资源单元和非预留计算资源两种。包年包月套餐版中蕴含了计算和存储两局部费用,买一份套餐,存储资源不须要额定计费。
五、总结
MaxCompute作为阿里云飞天大数据中的数据仓库产品,曾经成为了阿里外部及泛滥的客户宽泛应用且高度信赖的企业数据平台。同时,MaxCompute能够满足古代企业数字化多种需要。基于MaxCompute,企业能够构建低成本、高效能的麻利数据平台。MaxCompute有超大规模数据存储能力,将企业多源数据集中在一起,对立数据资产,在企业外部使得每位员工在平安共享的环境下应用和剖析数据,从而赋能数据驱动的组织变革。MaxCompute是数据仓库及数据中台的现实技术底座。
作者:曲宁,阿里云智能产品专家。
原文链接:https://yqh.aliyun.com/detail..._content=g_1000160911
本文为阿里云原创内容,未经容许不得转载。