在近日由网易数帆、Intel 联结举办的网易数帆技术沙龙大数据专场上,网易数帆大数据专家、Apache Spark Committer 姚琴,有赞基础架构组 OLAP 负责人陈琦,Intel 资深软件开发工程经理、Apache Hive Committer 徐铖,网易云音乐数据专家雷剑波,以及网易数帆大数据产品专家顾平等五位专家,别离就 Serverless Spark、ClickHouse、Spark/Flink 减速、数据仓库和数据产品等话题分享了各自团队的最新实际。
Kyuubi:开源企业级 Serverless Spark 框架
网易数帆大数据专家、Apache Spark Committer 姚琴分享了数帆开源我的项目 Kyuubi 的研发初衷、设计要点及其在网易的实际。Kyuubi 是一个遵循 HiveSever2 的 RPC 实现的分布式 JDBC 服务,在 Spark 赋予多租户能力后,能够让它成为一个现实的 Hive QL 迁徙 Spark SQL 的平台,其次它将整个 SQL 的 Compiler(编译优化) 和 Runtime(执行)全副交由 Spark 实现,能够取得十分卓著的性能。在这个框架之下,网易数帆整合 Kyuubi 和 Spark 的一些高级个性,开始了 Serverless Spark(Spark as a service)之旅。
因为 Kyuubi 封装 Spark 高阶 API,通过 C / S 架构提供,用户对 Spark 相干的概念和框架“无感知”,更加专一于本人的业务和数据自身。这能够满足更多人更多业务对大数据的间接需要。
在网易外部,Kyuubi 曾经帮忙网易传媒业务实现 Hive QL 工作至 Spark SQL 的平滑迁徙,在实现计算资源资源节俭 50% 的前提下,总体时耗同步缩减 70%,综合性能提效 727%。此外,团队还正在帮忙业务线施行 Spark 作业从 YARN 集群上迁徙到 Kubernetes 的工作。
视频回放:https://www.bilibili.com/video/BV1164y197iz
PPT 下载:https://sq.163yun.com/resource/download?id=565376248668409856&fileId=565376174894796800
Kyuubi 开源地址:https://github.com/NetEase/kyuubi
ClickHouse 在有赞的应用和优化
有赞基础架构组 OLAP 负责人陈琦从三个方面介绍了 ClickHouse 在有赞的应用和优化:1)ClickHouse 在有赞的倒退,平台化建设,利用场景,比方 DMP,SCRM,CDP 等场景的落地和优化。2)千亿级别数据量的离线读写拆散,应用离线写入 K8s 长期构建集群来实现离线数据的读写拆散,从而解决写多读少的业务倒退问题。3)自研新数据库的摸索 POC,尝试去交融 Doris 和 ClickHouse,来解决单方的痛点。
陈琦介绍,ClickHouse 不太像一个传统意义上的分布式数据库,整体比拟“手动档”,很多中央都须要用户本人去设计一个流程去欠缺,比方写入,物化视图等;同时,ClickHouse 也没有主动 Rebalance 的能力,导致扩容缩容运维特地简单。相比之下,Apache Doris 更像一个分布式数据库,也解决了局部痛点,比方可能主动均衡,反对 Shuffle Join 等,但目前为止其单表性能、成熟度及稳定性还不如 ClickHouse。
于是,有赞尝试利用高性能的 ClickHouse 算子实现替换基于 Impala 的 Apache Doris,在将来打造出更好的分布式 OLAP 数据库。从 POC 实现成果来看,该计划是可行性的。
视频回放:https://www.bilibili.com/video/BV1h64y1t7EQ
PPT 下载:https://sq.163yun.com/resource/download?id=565376400493826048&fileId=565376393988460544
利用 Intel Optane PMEM 技术减速大数据分析
Intel 软件开发工程经理、Apache Hive Committer 徐铖分享了如何应用 Intel 开源我的项目 Optimized Analytics Package (OAP) 减速 Spark、Flink 的性能,介绍了现有 Spark 框架在内存治理、Shuffle 实现等层面性能有进一步晋升的空间。以及如何更好利用新硬件,比方利用 Intel Optane PMEM(长久化内存)技术,施展 Optane 的长久个性、原地擦写、字节寻址和低提早等独特价值上,Spark 有诸多进一步优化的性能点。
徐铖重点解读了 OAP Analytic Cache 个性,包含利用 Arrow 中高性能模块、Spark/Flink 的 cache awareness、Disaggregated cache、Filter/Project/Aggregation 下放和高性能压缩加速器 QAT 反对等。以 Spark cache awareness 为例,OAP 扩大了现有 Spark data source scan 可能辨认已缓存的热数据块,利用 cache location provider 来提供调度层面的 cache
awareness,并针对不同的应用场景反对了多种 cache location provider。
视频回放:https://www.bilibili.com/video/BV1zb4y1C7BG
PPT 下载:https://sq.163yun.com/resource/download?id=565376636419231744&fileId=565376520669024256
OAP 开源地址:https://github.com/oap-project/
网易云音乐数仓建设之路
网易云音乐数据专家雷剑波介绍,网易云音乐正在通过规范化、共享化、自助化的对立数仓体系,升高数据应用门槛,晋升决策利用成果,并实现数据驱动业务增长。他从流量数据治理和数据资产积淀两个方面,分享了网易云音乐应答挑战的实际和思考,以及获得的成绩。
在流量数据治理方面,埋点是一个微小的痛点,具体包含埋点格局差别较大,埋点前环节不足标准、需要评审,客户端埋点实现无较好的技术设计、工程标准,少数聚合流量需从新提 JIRA 单等,网易云音乐通过事先建设埋点标准、事中重造埋点流程、预先推动灰度稽核等措施实现治理。在这个过程中,网易云音乐通过与网易数帆共建了 easyTracker 埋点治理平台、easyFetch 自助取数平台等零碎,来保障埋点的规范化和流量数据服务自助化。
视频回放:https://www.bilibili.com/video/BV1To4y1C7i7
PPT 下载:https://sq.163yun.com/resource/download?id=565376740635103232&fileId=565376735706796032
网易数据产品实际
网易数帆大数据产品专家顾平分享了网易严选数据产品实际——他从 0 到 1 构建了网易严选的数据产品体系和数据中台体系。网易严选业务正走向“数据中台撑持 + 数据产品驱动”的双引擎模式,开释数据价值以反对翻新业务的摸索,顾平联合网易严选的业务实际,分享笼罩营销和供应链的数据产品体系建设思路与步骤,并介绍作为撑持的数据中台及数据治理的相干教训。
撑持严选“品牌 + 平台”经营模式,严选数据产品笼罩数字化经营、数字化治理和数字化供给三个层面,包含了商品数据经营平台、营销数据经营平台、挪动数据工作台、供应链数据运作平台四大数据产品。其中挪动数据工作台是严选开发的第一个数据产品,该产品次要面向管理层的数据化治理,有助于自上而下推动数据产品体系胜利建设。顾平示意,数据产品能够和业务零碎相连接,提供异样监控诊断、决策倡议,但如果没有数据中台的撑持,数据产品就无奈实现。基于网易无数的能力,严选高效高质量地落地了数据体系建设。
视频回放:https://www.bilibili.com/video/BV1Bb4y1C75t
PPT 下载:https://sq.163yun.com/resource/download?id=565376835766112256&fileId=565376831504699392