无分类 PY-PySparkSpark-CoreRDD 前言 第一篇传送门:[链接] RDD认知 RDD是什么? RDD: 弹性分布式数据集(Resiliennt Distributed Datasets) 转为格式RDD的几种方式: {代码…} RDD核心概念 Application: {代码…} Driver: {代码…} Worker Node: {代码…} Executor: {代码…} Job: {代码…} Task: {代码…} Stage: {代码…} Cluster Manager:…
hadoop Hadoop-MapReduce-Spark-配置项 适用范围 本文涉及到的配置项主要针对 Hadoop 2.x,Spark 2.x。 MapReduce 官方文档 [链接]左下角: mapred-default.xml 配置项举例 mapreduce.job.reduce.slowstart.completedmaps 当 Map Task 完成的比例达到该…
无分类 大数据系列Spark学习笔记之Spark中的RDD 1. Spark中的RDD Resilient Distributed Datasets(弹性分布式数据集) Spark中的最基本的抽象 有了RDD的存在我们就可以像操作本地集合一样操作分布式的数据 包含所有元素的分区的集合 RDD包含了很多的分区 2. RDD…