在近日由网易数帆、Intel联结举办的网易数帆技术沙龙大数据专场上,网易数帆大数据专家、Apache Spark Committer姚琴,有赞基础架构组OLAP负责人陈琦,Intel资深软件开发工程经理、Apache Hive Committer徐铖,网易云音乐数据专家雷剑波,以及网易数帆大数据产品专家顾平等五位专家,别离就Serverless Spark、ClickHouse、Spark/Flink减速、数据仓库和数据产品等话题分享了各自团队的最新实际。

Kyuubi:开源企业级Serverless Spark框架

网易数帆大数据专家、Apache Spark Committer姚琴分享了数帆开源我的项目Kyuubi的研发初衷、设计要点及其在网易的实际。Kyuubi 是一个遵循 HiveSever2 的 RPC 实现的分布式 JDBC 服务,在 Spark 赋予多租户能力后,能够让它成为一个现实的 Hive QL迁徙 Spark SQL的平台,其次它将整个 SQL 的 Compiler(编译优化) 和 Runtime(执行) 全副交由 Spark 实现,能够取得十分卓著的性能。在这个框架之下,网易数帆整合 Kyuubi 和 Spark 的一些高级个性,开始了 Serverless Spark(Spark as a service)之旅。

因为 Kyuubi 封装 Spark 高阶 API,通过C / S 架构提供,用户对 Spark 相干的概念和框架“无感知”,更加专一于本人的业务和数据自身。这能够满足更多人更多业务对大数据的间接需要。

在网易外部,Kyuubi曾经帮忙网易传媒业务实现 Hive QL 工作至 Spark SQL的平滑迁徙,在实现计算资源资源节俭50%的前提下,总体时耗同步缩减70%,综合性能提效727%。此外,团队还正在帮忙业务线施行 Spark 作业从 YARN 集群上迁徙到 Kubernetes 的工作。

视频回放:https://www.bilibili.com/video/BV1164y197iz

PPT下载:https://sq.163yun.com/resource/download?id=565376248668409856&fileId=565376174894796800

Kyuubi开源地址:https://github.com/NetEase/kyuubi

ClickHouse在有赞的应用和优化

有赞基础架构组OLAP负责人陈琦从三个方面介绍了ClickHouse在有赞的应用和优化:1)ClickHouse在有赞的倒退,平台化建设,利用场景,比方DMP,SCRM,CDP等场景的落地和优化。2)千亿级别数据量的离线读写拆散,应用离线写入K8s长期构建集群来实现离线数据的读写拆散,从而解决写多读少的业务倒退问题。3)自研新数据库的摸索POC,尝试去交融Doris和ClickHouse,来解决单方的痛点。

陈琦介绍,ClickHouse 不太像一个传统意义上的分布式数据库,整体比拟 “手动档”,很多中央都须要用户本人去设计一个流程去欠缺,比方写入,物化视图等;同时,ClickHouse 也没有主动 Rebalance 的能力,导致扩容缩容运维特地简单。相比之下,Apache Doris 更像一个分布式数据库,也解决了局部痛点,比方可能主动均衡,反对Shuffle Join 等,但目前为止其单表性能、成熟度及稳定性还不如 ClickHouse。

于是,有赞尝试利用高性能的 ClickHouse 算子实现替换基于 Impala 的 Apache Doris,在将来打造出更好的分布式 OLAP 数据库。从 POC 实现成果来看,该计划是可行性的。

视频回放:https://www.bilibili.com/video/BV1h64y1t7EQ

PPT下载:https://sq.163yun.com/resource/download?id=565376400493826048&fileId=565376393988460544

利用Intel Optane PMEM技术减速大数据分析

Intel软件开发工程经理、Apache Hive Committer徐铖分享了如何应用Intel开源我的项目Optimized Analytics Package (OAP)减速Spark、Flink的性能,介绍了现有Spark框架在内存治理、Shuffle实现等层面性能有进一步晋升的空间。以及如何更好利用新硬件,比方利用Intel Optane PMEM(长久化内存)技术,施展Optane的长久个性、原地擦写、字节寻址和低提早等独特价值上,Spark有诸多进一步优化的性能点。

徐铖重点解读了OAP Analytic Cache个性,包含利用Arrow中高性能模块、Spark/Flink的cache awareness、Disaggregated cache、Filter/Project/Aggregation下放和高性能压缩加速器QAT反对等。以Spark cache awareness为例,OAP扩大了现有Spark data source scan可能辨认已缓存的热数据块,利用cache location provider来提供调度层面的cache
awareness,并针对不同的应用场景反对了多种cache location provider。

视频回放:https://www.bilibili.com/video/BV1zb4y1C7BG

PPT下载:https://sq.163yun.com/resource/download?id=565376636419231744&fileId=565376520669024256

OAP开源地址:https://github.com/oap-project/

网易云音乐数仓建设之路

网易云音乐数据专家雷剑波介绍,网易云音乐正在通过规范化、共享化、自助化的对立数仓体系,升高数据应用门槛,晋升决策利用成果,并实现数据驱动业务增长。他从流量数据治理和数据资产积淀两个方面,分享了网易云音乐应答挑战的实际和思考,以及获得的成绩。

在流量数据治理方面,埋点是一个微小的痛点,具体包含埋点格局差别较大,埋点前环节不足标准、需要评审,客户端埋点实现无较好的技术设计、工程标准,少数聚合流量需从新提JIRA单等,网易云音乐通过事先建设埋点标准、事中重造埋点流程、预先推动灰度稽核等措施实现治理。在这个过程中,网易云音乐通过与网易数帆共建了easyTracker埋点治理平台、easyFetch自助取数平台等零碎,来保障埋点的规范化和流量数据服务自助化。

视频回放:https://www.bilibili.com/video/BV1To4y1C7i7

PPT下载:https://sq.163yun.com/resource/download?id=565376740635103232&fileId=565376735706796032

网易数据产品实际

网易数帆大数据产品专家顾平分享了网易严选数据产品实际——他从0到1构建了网易严选的数据产品体系和数据中台体系。网易严选业务正走向“数据中台撑持+数据产品驱动”的双引擎模式,开释数据价值以反对翻新业务的摸索,顾平联合网易严选的业务实际,分享笼罩营销和供应链的数据产品体系建设思路与步骤,并介绍作为撑持的数据中台及数据治理的相干教训。

撑持严选“品牌+平台”经营模式,严选数据产品笼罩数字化经营、数字化治理和数字化供给三个层面,包含了商品数据经营平台、营销数据经营平台、挪动数据工作台、供应链数据运作平台四大数据产品。其中挪动数据工作台是严选开发的第一个数据产品,该产品次要面向管理层的数据化治理,有助于自上而下推动数据产品体系胜利建设。顾平示意,数据产品能够和业务零碎相连接,提供异样监控诊断、决策倡议,但如果没有数据中台的撑持,数据产品就无奈实现。基于网易无数的能力,严选高效高质量地落地了数据体系建设。

视频回放:https://www.bilibili.com/video/BV1Bb4y1C75t

PPT下载:https://sq.163yun.com/resource/download?id=565376835766112256&fileId=565376831504699392