一、传统 Shuffle 的问题
Apache Spark 是广为风行的大数据处理引擎,它有很多应用场景: Spark SQL、批处理、流解决、MLLIB、GraphX 等。在所有组件下是对立的 RDD 形象,RDD 血统通过两种依赖关系形容,窄依赖和宽依赖。其中宽依赖是撑持简单算子(Join, Agg 等)的要害,而宽依赖实现机制就是 Shuffle。
残缺内容请点击下方链接查看:
https://developer.aliyun.com/article/1153123?utm_content=g_10…
版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。