乐趣区

关于spark:超详攻略Databricks-数据洞察-企业级全托管-Spark-大数据分析平台及案例分析

简介:5 分钟读懂 Databricks 数据洞察

开源大数据社区 & 阿里云 EMR 系列直播 第四期

主题:Databricks 数据洞察 – 企业级全托管 Spark 大数据分析平台及案例剖析
讲师:棕泽,阿里云技术专家,计算平台事业部开放平台 - 生态企业团队负责人

内容框架:

Databricks 数据洞察产品介绍
性能介绍
典型场景
客户案例
产品 Demo

一、Databricks 数据洞察产品介绍

1、Databricks 公司简介
2、什么是阿里云 Databricks 数据洞察产品
01\ Databricks 公司简介

① ApacheSpark 开创公司,也是 Spark 的最大代码贡献者,Spark 技术生态背地的商业公司。
在 2013 年,由加州大学伯克利分校 AMPLab 的开创团队 ApacheSpark 的创建者所成立。

② 外围产品和技术,主导和推动 Spark 开源生态
ApacheSpark、DeltaLake、Koalas、MLFlow、OneLakehousePlatform

③ 公司定位
Databricksis the Data + AI company,为客户提供数据分析、数据工程、数据迷信和人工智能方面的服务,一体化的 Lakehouse 架构
开源版本 VS 商业版本:公司绝大部分技术研发资源投入在商业化产品
多云策略,与顶级云服务商单干,提供数据开发、数据分析、机器学习等产品,Data+AI 一体化剖析平台
④ 市场位置
科技独角兽,行业标杆,领导 Spark 整体技术生态的走向及风向标
2021 年最受期待的科技上市公司

02\ Databricks 公司估值及融资历史

(起源 Databricks 官网)
① 2019 年 10 月 G 轮,估值 $ 6.2 Billion
② 2021 年 2 月初 F 轮,估值 $ 28 Billion

  • 本轮融资,三大云服务商 AWS、GCP、MSAzure 以及 Salesforce 都进行了跟投——足以看到云厂商对 Databricks 的倒退的器重
  • 上市预期:打算 IPO 在 2021 年——多方预测 Databricks 上市之时其估值可能达到 350 亿美元,甚至是高达 500 亿美元

03\ Databricks 和阿里云联手打造的高品质 Spark 大数据分析平台

  • Apache Spark 背地的商业公司,Spark 开创团队,美国科技独角兽
  • 在寰球领有 5,000 多个客户和 450 多个合作伙伴,品牌认知强
  • 2020 年,在 Gartner 公布的数据迷信和机器学习(DSML)平台魔力象限报告中,位于领导者象限

04\ Databricks + 阿里云 = Databricks 数据洞察

Dingtalk_20210524160041.jpg

产品外围:

  • 基于商业版 Spark 的全托管大数据分析 & AI 平台
  • 内置商业版 Spark 引擎 Databricks Runtime,在计算层面提供高效、稳固的保障
  • 与阿里云产品集成互通,提供数据安全、动静扩容、监控告警等企业级个性

产品引擎与服务:

  • 100% 兼容开源 Spark,经阿里云与 Databricks 联结研发性能优化
  • 提供商业化 SLA 保障与 7 *24 小时 Databricks 专家反对服务

DDI 产品能力外围构件

产品要害信息与劣势

二、DDI 产品性能介绍

1、整体架构
2、引擎能力
3、性能
4、性能
5、老本

01\ 阿里云 Databricks 数据洞察 (DDI) 架构

640 (7).png

02\ 引擎:企业级性能优化,晋升计算引擎效率和数据读写效率

企业级高性能、稳定性、可靠性

03\ 企业级 Databricks Runtime vs 社区版 Open Source Spark

04\ 基于计算存储拆散的架构,HDFS vs OSS 老本的比照

05\ 基于 JindoFS 进行 OSS 拜访优化减速,优化数据拜访性能

06\ 交互式剖析 Notebook,汇集数据

优化的 Apache Zeppelin

  • 多语言反对
  • Scala、Python、Spark SQL、R
  • 交互式剖析
  • 数据可视化
  • 集成调度能力
  • 一站式开发平台
  • 多用户合作开发

07\ 数据开发作业提交 & 工作流调度

  • 反对 jar 包提交作业及作业调度能力
  • 反对 Spark/Spark Streaming/Notebook
  • 不同作业类型工作流混合调度
  • 反对调度运维、审计日志、版本控制等

08\ 丰盛的数据源反对

09\ 元数据管理

三种元数据抉择的形式

三、典型场景

1、客户存在的痛点问题及 DDI 如何解决
2、Lambda 架构到批流一体架构
3、Lakehouse 架构的演进
4、DDI 在阿里云中产品的组合

01\ 开源大数据平台客户普遍存在的痛点问题

02\ Databricks 数据洞察在四大场景帮忙客户晋升生产效率

03\ Delta Lake 的我的项目背景以及要解决的问题

04\ 大数据倒退进入 Lake House 时代

05\ 应用 DDI 构建批流一体数仓,简化简单架构

06\ DDI 在阿里云产品中的组合

07\ Databricks 数据洞察典型架构

DDI 与阿里云产品深度集成(典型场景)

数据获取

接管实时产生的流式数据和内部云存储上批量数据。

数据 ETL

继续高效地解决增量数据,反对数据的回滚和删改,提供 ACID 事务性保障。

BI 报表数据分析 & 交互式剖析

反对 Ad hoc 查问,Notebook 可视化剖析,无缝对接多种 BI 剖析工具。

AI 数据摸索

反对机器学习,Mllib 等 Spark 生态 AI 场景。

上下游网络买通

如上游对接 Kafka、OSS、EMR HDFS 等等,上游承接 Elasticsearch、RDS、OSS 存储等。

四、典型场景客户案例介绍

1、基智科技(STEPONE)自建上云案例
2、工业制作头部公司数据分析案例

客户案例 01:基智科技(STEPONE)Databricks 上云迁徙

本架构形容利用 Databricks 数据洞察 解决客户大数据计算问题:

  • 数据存储:自建 Hive 数仓 -》OSS(升高存储老本,同时做计算存储拆散)
  • 大数据分析:自建 CDH -》Databricks 数据洞察(全托管 Spark,高性能 Runtime 引擎,Notebook 交互式剖析,工作流 DAG 调度,Python 库的装置不便等)
  • 元数据:自建 CDH -》RDS MySQL 自建元数据库或应用 DDI 对立元数据库
  • 数据迁徙:应用 DistCp 或 JindoDistCp 将数据迁徙到 OSS,数据后果同步持续应用 Sqoop 定时工作

客户老本收益剖析

  • 全托管 Spark 集群免运维,节俭人力老本(省 1 运维 + 1 大数据,此外免去性能调优)
  • 相比自建机器资源多了 3 倍,此外算上 Databricks Runtime 相比开源 spark 来说(预估 3 倍),整体性能晋升 9 倍
  • Notebook 交互式剖析 + DAG 工作流调度,晋升数据开发 / 剖析体验
  • 技术计划对立,计算存储拆散计划 OSS 存储节俭客户存储老本,并为当前数据湖、多计算架构铺路
  • Delta Lake 解决了客户增量数据更新的问题

客户案例 02:工业制作头部空调公司– 大数据分析计划架构

  • 数据收集 / 存储: 接管实时产生的流式数据和内部云存储上批量数据
  • 数据 ETL:继续高效地解决增量数据,反对数据的回滚和删改,提供 ACID 事务性保障
  • BI 数据分析 & 交互式剖析: 反对查问,Notebook 可视化剖析,无缝对接多种 BI 剖析工具
  • 数据迷信:反对机器学习 / 深度学习
  • ⽣态对接:如上游对接 Kafka、OSS、EMR HDFS 等等,上游承接 Elasticsearch、RDS、OSS 存储等

原文链接

本文为阿里云原创内容,未经容许不得转载。

退出移动版