关于jupyter-notebook:如何基于Jupyter-notebook搭建Spark集群开发环境

摘要：本文介绍如何基于Jupyter notebook搭建Spark集群开发环境。

本文分享自华为云社区《基于Jupyter Notebook 搭建Spark集群开发环境》，作者：apr鹏鹏。

一、概念介绍：

1、Sparkmagic：它是一个在Jupyter Notebook中的通过Livy服务器 Spark REST与近程Spark群集交互工作工具。Sparkmagic我的项目包含一组以多种语言交互运行Spark代码的框架和一些内核，能够应用这些内核将Jupyter Notebook中的代码转换在Spark环境运行。

2、Livy：它是一个基于Spark的开源REST服务，它可能通过REST的形式将代码片段或是序列化的二进制代码提交到Spark集群中去执行。它提供了以下这些基本功能：提交Scala、Python或是R代码片段到远端的Spark集群上执行，提交Java、Scala、Python所编写的Spark作业到远端的Spark集群上执行和提交批处理利用在集群中运行

二、根本框架为下图所示：

三、筹备工作：

具备提供Saprk集群，本人能够搭建或者间接应用华为云上服务，如MRS，并且在集群上装置Spark客户端。同节点（能够是docker容器或者虚拟机）装置Jupyter Notebook和Livy，安装包的门路为：https://livy.incubator.apache…

四、配置并启动Livy：

批改livy.conf 参考：https://enterprise-docs.anaco…
增加如下配置：

livy.spark.master = yarn
livy.spark.deploy-mode = cluster
livy.impersonation.enabled = false
livy.server.csrf-protection.enabled = false
livy.server.launch.kerberos.keytab=/opt/workspace/keytabs/user.keytab
livy.server.launch.kerberos.principal=miner
livy.superusers=miner

批改livy-env.sh, 配置SPARK_HOME、HADOOP_CONF_DIR等环境变量

export JAVA_HOME=/opt/Bigdata/client/JDK/jdk
export HADOOP_CONF_DIR=/opt/Bigdata/client/HDFS/hadoop/etc/hadoop
export SPARK_HOME=/opt/Bigdata/client/Spark2x/spark
export SPARK_CONF_DIR=/opt/Bigdata/client/Spark2x/spark/conf
export LIVY_LOG_DIR=/opt/workspace/apache-livy-0.7.0-incubating-bin/logs
export LIVY_PID_DIR=/opt/workspace/apache-livy-0.7.0-incubating-bin/pids
export LIVY_SERVER_JAVA_OPTS="-Djava.security.krb5.conf=/opt/Bigdata/client/KrbClient/kerberos/var/krb5kdc/krb5.conf -Dzookeeper.server.principal=zookeeper/hadoop.hadoop.com -Djava.security.auth.login.config=/opt/Bigdata/client/HDFS/hadoop/etc/hadoop/jaas.conf -Xmx128m"

启动Livy：

./bin/livy-server start

五、装置Jupyter Notebook和sparkmagic

Jupyter Notebook是一个开源并且应用很宽泛我的项目，装置流程不在此赘述

sparkmagic能够了解为在Jupyter Notebook中的一种kernel，间接pip install sparkmagic。留神装置前零碎必须具备gcc python-dev libkrb5-dev工具，如果没有，apt-get install或者yum install装置。装置完当前会生成$HOME/.sparkmagic/config.json文件，此文件为sparkmagic的要害配置文件，兼容spark的配置。要害配置如图所示

其中url为Livy服务的ip和端口，反对http和https两种协定

六、增加sparkmagic kernel

PYTHON3_KERNEL_DIR=”$(jupyter kernelspec list | grep -w “python3″ | awk ‘{print $2}’)”
KERNELS_FOLDER=”$(dirname “${PYTHON3_KERNEL_DIR}”)”
SITE_PACKAGES=”$(pip show sparkmagic|grep -w “Location” | awk ‘{print $2}’)”
cp -r ${SITE_PACKAGES}/sparkmagic/kernels/pysparkkernel ${KERNELS_FOLDER}

七、在Jupyter Notebook中运行spark代码验证：

八、拜访Livy查看以后session日志：

点击关注，第一工夫理解华为云陈腐技术~

关于jupyter-notebook:如何基于Jupyter-notebook搭建Spark集群开发环境

一、概念介绍：

二、根本框架为下图所示：

三、筹备工作：

四、配置并启动Livy：

五、装置Jupyter Notebook和sparkmagic

六、增加sparkmagic kernel

七、在Jupyter Notebook中运行spark代码验证：

八、拜访Livy查看以后session日志：

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于jupyter-notebook:如何基于Jupyter-notebook搭建Spark集群开发环境

一、概念介绍：

二、根本框架为下图所示：

三、筹备工作：

四、配置并启动Livy：

五、装置Jupyter Notebook和sparkmagic

六、增加sparkmagic kernel

七、在Jupyter Notebook中运行spark代码验证：

八、拜访Livy查看以后session日志：

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复