明天咱们介绍的是数据湖摸索。什么是数据湖摸索呢?数据湖摸索 DLI 数据湖摸索(Data Lake Insight,简称DLI)是齐全兼容Apache Spark、Apache Flink、openLooKeng(基于Presto) 生态,提供一站式的流解决、批处理、交互式剖析的Serverless交融解决剖析服务。企业应用规范SQL、Spark、Flink 程序就可轻松实现多数据源的联结计算剖析,开掘和摸索数据价值。
Serverless DLI的劣势是什么呢?
存算拆散,存储和计算解耦,离开申请和计费,降低成本的同时,进步了资源利用率主动扩缩容依据业务负载,对计算资 源进行预估和主动扩缩容按量计费真正的按使用量(扫描量/CU时)计费,不运行作业时“0”费用 免运维、高可用 用户无需感知底层运维、 降级、跨AZ高可用,跨AZ 双活。
那么这个产品的产品性能是什么呢?又在那些畛域失去理论的利用了呢?
产品性能 All in SQL 无需大数据背景,会SQL就会大数据分析。SQL语法全兼 容规范ANSI SQL 2003 Serverless Spark/Flink/openLooKeng 齐全兼容Apache Spark、Apache Flink、Presto生态和接 口,线下利用可无缝平滑迁徙上云,缩小迁徙工作量;一 份资源反对流解决、批处理、交互式剖析多种计算 跨源剖析 反对多种数据格式,云上多种数据源、ECS自建数据库以 及线下数据库,数据无需搬迁,即可实现对云上多个数据 源进行剖析,构建企业的对立视图,帮忙企业疾速实现业 务翻新和数据价值摸索 企业级多租户 反对对计算资源和数据按租户进行细粒度受权治理,满足 中大企业应用数据中台时对权限治理的需要。
不同业务场景下应用DLI服务
1.数据库剖析
利用的数据(如:注册信息)存在关系型数据库中,想对数据库内的数据进行剖析。
痛点:1.数据量日益增多,简单查问关系型数据库查不进去.2.数据分库分表存在多个关系型数据库中,无奈做全量分析.3.不想因为剖析业务影响在线业务
劣势:1.相熟的SQL体验。2.DLI的SQL语法全兼容关系型数据库的规范ANSI SQL 2003,0学习老本,应用习惯保持一致。
极致性能:DLI采纳分布式内存计算模型,轻松解决海量数据。
倡议搭配应用:[云数据迁徙 CDM]。
2.电商行业的精准营销
电商行业须要获取多个路径的信息做关联剖析,以便更好地做精准营销,进步转化率。如:关联【页面广告点击事件数据】和【用户注册数据】,获取不同年龄段喜爱的广告类型,以便对不同年龄段用户投放更精准的广告。
劣势:1.跨源剖析。2.数据免搬迁,就能够关联剖析存在OBS中的【页面广告点击事件数据】和RDS中的【用户注册数据】。3.纯SQL操作。DLI已对接多个数据源,间接通过SQL建表就能够实现数据源的映射。
倡议搭配应用:1.[对象存储服务OBS]。2.[数据接入服务DIS]。
[图片上传失败...(image-cbc211-1652065516150)]
3.游戏行业的日志剖析
游戏公司日常通过数据分析平台,借助数据力量没冲破行业瓶颈。例如:寻找优质的投放渠道、进步老手期玩家留存、优化经营流动晋升玩家沉闷、数据驱动产品迭代等。
痛点:1.日志剖析通常是按周期进行调度,每次调度之间存在大量闲暇期。
劣势:1.按量计费。2.DLI按量计费只在应用期间免费,老本较独占集群升高50%以上。3.交融剖析DLI三大引擎间元数据互通,数据实时荡涤后入库进行离线ETL解决,处理结果间接可用交互式剖析进行数据摸索。
倡议搭配应用:1.[数据接入服务 DIS]。2.[云数据库服务MySQL]。
4.大企业的日志剖析
大企业的部门比拟多,不同部门在应用云服务时,须要对不同部门的员工的权限进行治理,包含计算资源的创立、删除、应用、隔离等。同时,也须要对不同部门的数据进行治理,包含数据的隔离、共享等
劣势1.细粒度权限管制。2.列级别权限管制;INSERT。3.INTO/OVERWRITE独自权限管制;表元数据只读权限管制。4.对立的管理机制应用对立的IAM治理用户(无需独自创立DLI用户),反对IAM细粒度受权。
·
5.基因行业的基因数据处理
当初基因行业有很多基于Spark分布式框架的第三方剖析库,如ADAM、Hail等。
痛点:1.装置ADAM、Hail等剖析库比较复杂。2.每次新建集群都须要装置一遍。
劣势:1.反对自定义镜像。2.反对基于根底镜像打包ADAM、Hail等第三方剖析库,间接上传到容器镜像服务SWR,在DLI中运行作业时会主动拉取SWR中的自定义镜像。3.内置多个根底镜像。4.内置华为增强版Spark/Flink多版本根底镜像,开源Tensorflow/Keras/PyTorch的AI镜像。
倡议搭配应用:1.容器镜像服务
6.金融行业的实时风控
为了进步毁灭或缩小危险事件产生的各种可能性,须要应用风控系统对典型的场景包含:注册风控、登录风控、交易分控等进行风控
痛点:风控系统对实时性要求很高。
劣势:1.高吞吐低时延。2.采纳Apache Flink的Dataflow模型,齐全的实时计算框架。采纳高性能计算资源,单CPU每秒吞吐1千~2万条音讯。3.丰盛的云生态应用SQL就能够将解决后的数据流式写入CloudTable、SMN等多个云服务
倡议搭配应用:1.数据接入服务 DIS。2.音讯告诉服务 SMN。
7.政府行业实时大屏
为了更好地做好新冠疫情的管控,各地政府须要通过实时大屏把握新冠疫情的现存确诊、累计确诊、境外输出等要害数据,为下一步疫情调控提供数据撑持。
痛点:政府技术人员通常会SQL,但对大数据理解不多
劣势:1.毫秒级查问性能。2.内置的openLooKeng引擎在内存计算框架的根底上,还利用许多查问优化技术来满足高性能毫秒级的交互式剖析的须要。3.简略易用纯SQL开发方式,SQL语法全兼容规范ANSI SQL 2003。
倡议搭配应用:1.云数据迁徙 CDM。2.云数据库 MySQL3.数据可视化 DLV。
8.天文大数据分析
天文大数据具备大数据的相干特色,数据体量微小,例如全球卫星遥感影像数据量达到PB级;数据品种多,有结构化的遥感影像栅格数据、矢量数据,非结构化的空间地位数据、三维建模数据;在大体量的天文大数据中,通过高效的开掘工具或者开掘办法实现价值提炼,是用户十分关注的话题
劣势:1.提供天文业余算子反对全栈Spark能力,具备丰盛的Spark空间数据分析算法算子,全面反对结构化的遥感影像数据、非结构化的三维建模、激光点云等巨量数据的离线批处理,反对带有地位属性的动静流数据实时计算解决。2.CEP SQL提供地理位置剖析函数对天文空间数据进行实时剖析,用户仅需编写SQL便可实现例如偏航检测,电子围栏等地理分析场景。
·
本文由博客群发一文多发等经营工具平台 OpenWrite 公布