在后面的所有例子中,咱们只是运行了livy官网给的两个例子。这篇咱们要尝试运行一些有意义的代码。

如没有非凡阐明,当前所有的试验都是在yarn-cluster模式下运行的。

咱们打算尝试运行上面代码:

sparkSession.read.format("org.elasticsearch.spark.sql").options(Map(    "es.nodes" -> "192.168.21.41:9200",     "es.resource" -> "xxxxxxxxxxxxx")).load().show()

这段代码用spark sql加载了elasticsearch的某个index,并应用show()打印几行数据。

为了实现这个试验,有两个问题必须解决:

  1. 大家晓得spark sql能够扩大DataSource,elasticsearch官网为spark开发的DataSource在elasticsearch-spark-20_2.11-x.x.x.jar外面。所以要运行下面的代码,必须保障这个jar包被正确加载到。
  2. 在之前的例子中,咱们用sc示意以后的SparkContext对象,而这里咱们须要的是SparkSession对象。当初咱们还不晓得应该如何援用“以后SparkSession”对象。

这两个问题,livy的文档没有波及。然而没关系,从源码外面找答案。

首先,种种迹象表明livy会主动将LIVY_HOME/rsc-jars目录下的jar包上传。于是咱们先把elasticsearch-spark-20_2.11-x.x.x.jar传到LIVY_HOME/rsc-jars目录下。

而后,从源码org/apache/livy/repl/AbstractSparkInterpreter.scala中能够找到SparkSession对象的bind

...bind("spark", sparkEntries.sparkSession().getClass.getCanonicalName, sparkEntries.sparkSession(), List("""@transient"""))bind("sc", "org.apache.spark.SparkContext", sparkEntries.sc().sc, List("""@transient"""))execute("import org.apache.spark.SparkContext._")execute("import spark.implicits._")execute("import spark.sql")execute("import org.apache.spark.sql.functions._")...

能够看到,这里将SparkSession对象bind到spark变量上,而把SparkContext对象bind到sc变量上。

于是咱们的代码应该写成:

spark.read.format("org.elasticsearch.spark.sql").options(Map(    "es.nodes" -> "192.168.21.41:9200",     "es.resource" -> "xxxxxxxxxxxxx")).load().show()

接下来,还是用python来提交代码运行:

data = {'code': 'sc.read.format("org.elasticsearch.spark.sql").options(Map("es.nodes" -> "192.168.21.41:9200", "es.resource" -> "777_zabbix_item2020_09_23_09_50_41")).load().show()'}r = requests.post(statements_url, data=json.dumps(data), headers=headers)

从webui上查看运行后果:

能够看到show()成绩打印了后果

从spark-web-ui上找到环境页面,查看spark.yarn.dist.jars,能够看到,elasticsearch-spark-20_2.11-x.x.x.jar被加了进来:

总结

从这个试验,咱们把握了自定义的jar包应该如何利用livy上传到集群上;还晓得了SparkSession对象bind的变量是spark