关于spark:Apache-Spark-海豚调度PB-级数据调度挑战教你如何构建高效离线工作流

0次阅读

共计 2592 个字符,预计需要花费 7 分钟才能阅读完成。

2010 年,我国进入挪动互联网,数据规模成几何式增长 。在大数据开源技术畛域, 以 Hadoop 为外围的大数据生态系统 面对海量数据也一直倒退与迭代,大数据处理流程中的各个开源组件,也一起开启了狂飙突进的大数据时代,推动整个行业开启了数字化改革之路。

* 2010-2025 年寰球数据规模量,起源 IDC

近年来,大数据行业的开发者都在感叹:技术迭代更新速度的太快了,往年还在风行,明年就可能被雪藏!其实咱们十分分明,技术永远是在“更新”或“替换”中失去倒退。

通过十余年倒退,已经的一些老牌开源我的项目已风光不在,大数据三驾马车(分布式文件系统 GFS、计算引擎 MapReduce、分布式数据库 BigTable),其中的计算引擎 MapReduce 逐步倒退到 Spark 时代,对于大数据调度新星 Apache DolphinScheduler 来说,集成大数据畛域优良的开源我的项目之后,如何突破数据孤岛,如何降本增效,如何应答大规模的数据离线调度也成为了新的挑战!

家喻户晓,因为各种起因,遇到 Apache Spark 应用程序的失败是不可避免的。

最常见的故障之一是 OOM(驱动程序或执行程序级别的内存不足)。

咱们能够通过 治理(调度、重试、警报等)Spark 应用程序以及 Apache DolphinScheduler 中的其余类型的工作,也不须要 Apache DolphinScheduler 生态系统之外的任何代码,并且还反对利落拽 Spark 工作解决其余的一些问题。

Apache Spark 是用于大规模数据处理的对立剖析引擎。是一个弱小的开源工具,它提供了 Java、Python、Scala 和 R 的高级 API,以及一个优化的引擎,反对用于数据分析和不同工作负载的通用计算图。Spark 另一个乏味的个性是它的疾速解决能力和容错能力,您能够释怀,在呈现资源故障的状况下,您的部署能够保持一致。

为了让两个社区的独特用户既有中央反馈,还有中央学习,咱们联结 Apache Spark 社区推出了这个主题流动:洞悉 Spark 任务调度新能力|Apache Spark + DolphinScheduler Meetup,如果你也是接触开源“计算引擎 + 调度”的用户,想理解最新 Spark 迷人的个性,那这次的分享你肯定不要错过了,咱们还顺便邀请了 EMR 数据开发平台团队负责人孙一凡、BIGO 大数据研发工程师许名勇、EMR Spark 引擎负责人周克勇,通过他们的分享让你能更快更好更便捷的应用 Apahce DolphinScheduler+Spark。

无论你是 热衷于钻研开源技术 的开发者,还是关注大数据最新技术动静的小伙伴,我都倡议你来听听,从中取得全新的灵感。

我置信社区破费精力筹备的流动,你肯定能听到一手的分享,失去一手的播种!

Apache DolphinScheduler & Spark 联结 Meetup | 1 月线上直播报名通道已开启,赶快预约吧!

工夫:2023-1-11 14:00-16:20

模式:线上直播

议程介绍

孙一凡

阿里云高级技术专家

EMR 数据开发平台技术团队负责人

演讲工夫:14:00-14:40

演讲题目:Aliyun EMR x DolphinScheduler – 云与开源的单干共生

演讲概要:目前,阿里云 EMR 团队有多位成员沉闷在 Apache DolphinScheduler 社区,为社区的倒退做出了踊跃的奉献。在这次 meetup 中,咱们将为大家分享抉择参加和奉献 DS 社区的起因,并向大家介绍阿里云 EMR 基于 DS 提供的产品和服务能力。

14:40-14:50 直播间抽奖环节

许名勇

BIGO 大数据研发工程师

演讲工夫:14:50-15:30

演讲题目:Apache DolphinScheduler X Spark 在 BIGO 的利用和改良

演讲概要:介绍了 BIGO 如何应用 DophinScheduler 来调度以 SPARK 为主的多种类型的离线工作,以及为了满足业务需要、晋升用户应用体验,在 DophinScheduler 和 Spark 上所做的各种改良。

周克勇(一锤)

阿里云高级技术专家

EMR Spark 引擎负责人

演讲工夫:15:30-16:20

演讲题目:Spark + Celeborn:更稳,更快,更弹性

演讲概要:Shuffle 是以 Spark 为代表的大数据计算引擎最重要的算子,但支流的 Shuffle 设计存在随机读、依赖本地盘等缺点,导致大数据量场景作业稳定性差、性能升高,并且限度了存算拆散架构,无奈充分利用弹性。Apache Celeborn (incubating)是阿里募捐给 Apache 基金会的 Remote Shuffle Service,它采纳 Push Shuffle,数据重组,多层存储等设计打消了传统 Shuffle 的缺点,无效晋升了稳定性和性能,使得存算拆散架构得以利用从而让作业更加弹性。此外,Celeborn 通过高可用,滚动降级,负载平衡等个性晋升了本身服务的可靠性。

福利环节

参加本期更多直播互动即有机会取得社区小礼品

欢送大家加入 1 月 11 日 Apache DolphinScheduler 联结Apache Spark 举办的 Meetup 流动,下午 14:00,咱们不见不散。

参加奉献

随着国内开源的迅猛崛起,Apache DolphinScheduler 社区迎来蓬勃发展,为了做更好用、易用的调度,真挚欢送酷爱开源的搭档退出到开源社区中来,为中国开源崛起献上一份本人的力量,让外乡开源走向寰球。

参加 DolphinScheduler 社区有十分多的参加奉献的形式,包含:

奉献第一个 PR(文档、代码) 咱们也心愿是简略的,第一个 PR 用于相熟提交的流程和社区合作以及感触社区的友好度。

社区汇总了以下适宜老手的问题列表:https://github.com/apache/dol…

非老手问题列表:https://github.com/apache/dol…

如何参加奉献链接:https://dolphinscheduler.apac…

来吧,DolphinScheduler 开源社区须要您的参加,为中国开源崛起添砖加瓦吧,哪怕只是小小的一块瓦,汇聚起来的力量也是微小的。

参加开源能够近距离与各路高手切磋,迅速晋升本人的技能,如果您想参加奉献,咱们有个贡献者种子孵化群,能够增加社区小助手 Leonard-ds,手把手教会您(贡献者不分程度高下,有问必答,要害是有一颗违心奉献的心)。

正文完
 0