关于大数据:描述一下Spark的DAG原理

36次阅读

共计 549 个字符,预计需要花费 2 分钟才能阅读完成。

DAG(Directed Acyclic Graph)有向无环图,Spark 中应用 DAG 对 RDD 的关系进行建模,形容了 RDD 的依赖关系,这种关系也被称之为 lineage” 血统 ”,RDD 的依赖关系应用 Dependency 保护,Dependency 分为宽依赖(一个父 RDD 被多个子 RDD 分区应用,有 shuffle) 和窄依赖 (一个父 RDD 只被一个子 RDD 分区应用),DAG 在 Spark 中对应的实现为 DAGScheduler。

用户提交的 Flink Job 会被转化成一个 DAG 工作运行。一个 Flink 工作的 DAG 生成计算图大抵经验以下三个过程:

StreamGraph 最靠近代码所表白的逻辑层面的计算拓扑构造,依照用户代码的执行程序向

StreamExecutionEnvironment 增加 StreamTransformation 形成流式图。JobGraph 从、StreamGraph 生成,将能够串联合并的节点进行合并,设置节点之间的边,安顿资源共享 slot 槽位和搁置相关联的节点,上传工作所需的文件,设置检查点配置等。相当于通过局部初始化和优化解决的工作图。

ExecutionGraph 由 JobGraph 转换而来,蕴含了工作具体执行所需的内容,是最贴近底层实现的执行图。
理解更多大数据培训相干技术内容欢送关注小编!

正文完
 0