spark 关于spark:Sparksubmit执行流程了解一下 咱们在进行Spark工作提交时,会应用“spark-submit -class …..”款式的命令来提交工作,该命令为Spark目录下的shell脚本。它的作用是查问spark-home,调用spark-class命令。
spark 关于spark:spark系列2spark-301-AQEAdaptive-Query-Exection分析 从spark configuration,到在最早在spark 1.6版本就曾经有了AQE;到了spark 2.x版本,intel大数据团队进行了相应的原型开发和实际;到了spark 3.0时代,Databricks和intel一起为社区奉献了新的AQE
spark 关于spark:spark系列1deltaio到底解决了什么问题 2019 年 10 月 16 日,在荷兰阿姆斯特丹举办的 Spark+AI 欧洲峰会上,Databricks 正式发表将 Delta Lake 捐献给了 Linux 基金会,其成为了该基金会中的一个正式我的项目。咱们期待在往年(2019 年)或者是将来,很快, Delta Lake 将会成为数据湖的支流或者说是事实标准。
spark 关于spark:Spark的五种JOIN策略解析 JOIN操作是十分常见的数据处理操作,Spark作为一个对立的大数据处理引擎,提供了十分丰盛的JOIN场景。本文分享将介绍Spark所提供的5种JOIN策略,心愿对你有所帮忙。本文次要包含以下内容:
spark 关于spark:Spark-SQL百万级数据批量读写入MySQL Spark SQL还包含一个能够应用JDBC从其余数据库读取数据的数据源。与应用JdbcRDD相比,应优先应用此性能。这是因为后果作为DataFrame返回,它们能够在Spark SQL中轻松解决或与其余数据源连贯。JDBC数据源也更易于应用Java或Python,因为它不须要用户提供ClassTag。
spark 关于spark:k8s系列5KubernetesClientException-too-old-resource-version-原因分析 因为咱们曾经正文掉了withResourceVersion(resourceVersion),(如果没有正文掉,阐明咱们的代码中设置的resourceVersion太小)然而还会报too old resource version
spark 关于spark:go系列1go的安装 因为之前我的项目依赖到了k8s,且与k8s的集成比拟多,而k8s的源码是go写的,网上搜寻了一大堆对于go的信息, 发现很多云原生的我的项目都是由go写的,所以又来折腾以下go语言,因为之前用brew install mac装置了go,也用了pkg包装置了go,所以环境够的很乱,至此,特定来清理一下
spark 关于spark:mlflow系列5一站式开源测试平台MeterSphere 因为咱们公司部署mlflow 服务的须要,而且之前的mlflow的钻研以及局部上线,都是我亲手操刀的,尽管mlflow算法服务是开源完满的部署下来了, 然而这里波及到该mlflow服务的性能问题,也就是该服务能反对的最大QPS,因为之前比较忙,所以间接用jmeter做的压测,这当然是能够满足要求的, 然而操作起来比拟麻烦:
spark 关于spark:mlflow-upgrade升级-Cannot-add-foreign-key-constraint 在mlflow upgrade这篇文章中,咱们说到了mlflow 降级的步骤, 很侥幸,零打碎敲, 并没有产生什么谬误, 明天要说的就是降级过程中如果遇到mysql Cannot add foreign key constraint的谬误该怎么解决 其中: mlflow 从1.4.0降级到1.11.0 mysql版本 5.7.21-log 遇到如下问题: