关于程序员:数据湖探索的精准定位分析

50次阅读

共计 2792 个字符,预计需要花费 7 分钟才能阅读完成。

明天咱们介绍的是数据湖摸索。什么是数据湖摸索呢?数据湖摸索 DLI 数据湖摸索(Data Lake Insight,简称 DLI)是齐全兼容 Apache Spark、Apache Flink、openLooKeng(基于 Presto)生态,提供一站式的流解决、批处理、交互式剖析的 Serverless 交融解决剖析服务。企业应用规范 SQL、Spark、Flink 程序就可轻松实现多数据源的联结计算剖析,开掘和摸索数据价值。

Serverless DLI 的劣势是什么呢?

存算拆散,存储和计算解耦,离开申请和计费,降低成本的同时,进步了资源利用率主动扩缩容依据业务负载,对计算资 源进行预估和主动扩缩容按量计费真正的按使用量(扫描量 /CU 时)计费,不运行作业时“0”费用 免运维、高可用 用户无需感知底层运维、降级、跨 AZ 高可用,跨 AZ 双活。

那么这个产品的产品性能是什么呢?又在那些畛域失去理论的利用了呢?

产品性能 All in SQL 无需大数据背景,会 SQL 就会大数据分析。SQL 语法全兼 容规范 ANSI SQL 2003 Serverless Spark/Flink/openLooKeng 齐全兼容 Apache Spark、Apache Flink、Presto 生态和接 口,线下利用可无缝平滑迁徙上云,缩小迁徙工作量;一 份资源反对流解决、批处理、交互式剖析多种计算 跨源剖析 反对多种数据格式,云上多种数据源、ECS 自建数据库以 及线下数据库,数据无需搬迁,即可实现对云上多个数据 源进行剖析,构建企业的对立视图,帮忙企业疾速实现业 务翻新和数据价值摸索 企业级多租户 反对对计算资源和数据按租户进行细粒度受权治理,满足 中大企业应用数据中台时对权限治理的需要。

不同业务场景下应用 DLI 服务

1. 数据库剖析

利用的数据(如:注册信息)存在关系型数据库中,想对数据库内的数据进行剖析。

痛点:1. 数据量日益增多,简单查问关系型数据库查不进去.2. 数据分库分表存在多个关系型数据库中,无奈做全量分析.3. 不想因为剖析业务影响在线业务

劣势:1. 相熟的 SQL 体验。2.DLI 的 SQL 语法全兼容关系型数据库的规范 ANSI SQL 2003,0 学习老本,应用习惯保持一致。

极致性能:DLI 采纳分布式内存计算模型,轻松解决海量数据。

倡议搭配应用:[云数据迁徙 CDM]。

2. 电商行业的精准营销

电商行业须要获取多个路径的信息做关联剖析,以便更好地做精准营销,进步转化率。如:关联【页面广告点击事件数据】和【用户注册数据】,获取不同年龄段喜爱的广告类型,以便对不同年龄段用户投放更精准的广告。

劣势:1. 跨源剖析。2. 数据免搬迁,就能够关联剖析存在 OBS 中的【页面广告点击事件数据】和 RDS 中的【用户注册数据】。3. 纯 SQL 操作。DLI 已对接多个数据源,间接通过 SQL 建表就能够实现数据源的映射。

倡议搭配应用:1.[对象存储服务 OBS]。2.[数据接入服务 DIS]。

[图片上传失败 …(image-cbc211-1652065516150)]

3. 游戏行业的日志剖析

游戏公司日常通过数据分析平台,借助数据力量没冲破行业瓶颈。例如:寻找优质的投放渠道、进步老手期玩家留存、优化经营流动晋升玩家沉闷、数据驱动产品迭代等。

痛点:1. 日志剖析通常是按周期进行调度,每次调度之间存在大量闲暇期。

劣势:1. 按量计费。2.DLI 按量计费只在应用期间免费,老本较独占集群升高 50% 以上。3. 交融剖析 DLI 三大引擎间元数据互通,数据实时荡涤后入库进行离线 ETL 解决,处理结果间接可用交互式剖析进行数据摸索。

倡议搭配应用:1.[数据接入服务 DIS]。2.[云数据库服务 MySQL]。

4. 大企业的日志剖析

大企业的部门比拟多,不同部门在应用云服务时,须要对不同部门的员工的权限进行治理,包含计算资源的创立、删除、应用、隔离等。同时,也须要对不同部门的数据进行治理,包含数据的隔离、共享等

劣势 1. 细粒度权限管制。2. 列级别权限管制;INSERT。3.INTO/OVERWRITE 独自权限管制;表元数据只读权限管制。4. 对立的管理机制应用对立的 IAM 治理用户(无需独自创立 DLI 用户),反对 IAM 细粒度受权。

·

5. 基因行业的基因数据处理

当初基因行业有很多基于 Spark 分布式框架的第三方剖析库,如 ADAM、Hail 等。

痛点:1. 装置 ADAM、Hail 等剖析库比较复杂。2. 每次新建集群都须要装置一遍。

劣势:1. 反对自定义镜像。2. 反对基于根底镜像打包 ADAM、Hail 等第三方剖析库,间接上传到容器镜像服务 SWR,在 DLI 中运行作业时会主动拉取 SWR 中的自定义镜像。3. 内置多个根底镜像。4. 内置华为增强版 Spark/Flink 多版本根底镜像,开源 Tensorflow/Keras/PyTorch 的 AI 镜像。

倡议搭配应用:1. 容器镜像服务

6. 金融行业的实时风控

为了进步毁灭或缩小危险事件产生的各种可能性,须要应用风控系统对典型的场景包含:注册风控、登录风控、交易分控等进行风控

痛点:风控系统对实时性要求很高。

劣势:1. 高吞吐低时延。2. 采纳 Apache Flink 的 Dataflow 模型,齐全的实时计算框架。采纳高性能计算资源,单 CPU 每秒吞吐 1 千~2 万条音讯。3. 丰盛的云生态应用 SQL 就能够将解决后的数据流式写入 CloudTable、SMN 等多个云服务

倡议搭配应用:1. 数据接入服务 DIS。2. 音讯告诉服务 SMN。

7. 政府行业实时大屏

为了更好地做好新冠疫情的管控,各地政府须要通过实时大屏把握新冠疫情的现存确诊、累计确诊、境外输出等要害数据,为下一步疫情调控提供数据撑持。

痛点:政府技术人员通常会 SQL,但对大数据理解不多

劣势:1. 毫秒级查问性能。2. 内置的 openLooKeng 引擎在内存计算框架的根底上,还利用许多查问优化技术来满足高性能毫秒级的交互式剖析的须要。3. 简略易用纯 SQL 开发方式,SQL 语法全兼容规范 ANSI SQL 2003。

倡议搭配应用:1. 云数据迁徙 CDM。2. 云数据库 MySQL3. 数据可视化 DLV。

8. 天文大数据分析

天文大数据具备大数据的相干特色,数据体量微小,例如全球卫星遥感影像数据量达到 PB 级;数据品种多,有结构化的遥感影像栅格数据、矢量数据,非结构化的空间地位数据、三维建模数据;在大体量的天文大数据中,通过高效的开掘工具或者开掘办法实现价值提炼,是用户十分关注的话题

劣势:1. 提供天文业余算子反对全栈 Spark 能力,具备丰盛的 Spark 空间数据分析算法算子,全面反对结构化的遥感影像数据、非结构化的三维建模、激光点云等巨量数据的离线批处理,反对带有地位属性的动静流数据实时计算解决。2.CEP SQL 提供地理位置剖析函数对天文空间数据进行实时剖析,用户仅需编写 SQL 便可实现例如偏航检测,电子围栏等地理分析场景。

·

本文由博客群发一文多发等经营工具平台 OpenWrite 公布

正文完
 0