共计 1464 个字符,预计需要花费 4 分钟才能阅读完成。
Master 实际上能够配置两个,那么在 spark 原生的 standalone 上也是反对 Master 主备切换的,也就是说,当 Active Master 节点挂掉之后,咱们能够将 Standby Master 切换为 Active Master
Spark Master 的主备切换能够基于两种切换机制,一种是文件系统,一种是基于 Zookeeper, 基于文件系统的机制,是 Active Master 挂掉后,须要咱们手动去切换到 Standby Master 上,基于 Zookeeper 机制,呆以实现主动切换。
所以这里说的主备切换机制,其实指的是在 Active Master 挂掉之后,切换到 Standby Master 时,Master 会做哪些操作
1. 应用长久化引挚 (FileSystemPersistence 或者是 ZookeeperPersisitence) 去读取长久化的 storedApps,storedDriver,storedWorker,
2. 判断下面的三个长久化的 storedApps,storedDriver,storedWorker,
有任何一个不为空,就将长久化有 Application,Driver,Worker 的信息从新注册,注册到 Master 外部的缓存构造中。
3. 将 Application 和 Worker 的状态都批改为 UNKNOWN, 而后向 Application 对应的 Driver,Worker 发送 Standby Master 的地址.
4.Driver,Worker, 实践上讲,如果他们目前是失常工作的话,那么在收到 Master 发送来的地址后,就会返回响应给新的 Master。
5. 此时,Master 在陆续接管到 Driver,Worker 发送来的响应音讯之后,会应用 completeRecovery()对没有收到发送响应音讯的 Driver,Worker 进行解决,过滤掉他们的信息。如下:
// Kill off any workers and apps that didn’t respond to us.
workers.filter(.state == WorkerState.UNKNOWN).foreach(removeWorker)
apps.filter(.state == ApplicationState.UNKNOWN).foreach(finishApplication)
// Reschedule drivers which were not claimed by any workers
drivers.filter(_.worker.isEmpty).foreach {d =>
logWarning(s”Driver ${d.id} was not found after master recovery”)
if (d.desc.supervise) {
logWarning(s"Re-launching ${d.id}")
relaunchDriver(d)
} else {
removeDriver(d.id, DriverState.ERROR, None)
logWarning(s"Did not re-launch ${d.id} because it was not supervised")
}
6. 调用 Master 的 schedule(),对正在期待调度的 Driver,Application 进行调度,比方在某个 Worker 上启动 Driver, 或者为 Application 在 Worker 上启动 Executor。
state = RecoveryState.ALIVE
schedule()
理解更多大数据面试问题欢送关注小编大数据培训专栏!