标签: spark
-
基于Influxdb对InfluxDBResultMapper的一点扩展
由于业务需要“灵活可配置”的功能需求,在使用java开发Influxdb查询功能的时候,遇到了一个问题,Mea…
-
RDD基础笔记
基础Spark中的RDD是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群中的不同节…
-
Spark2-的序列化JavaSerializerKryoSerializer
spark 默认的序列化器是 JavaSerializer,能够支持所有对象自动的序列化,但是效率比较低。
-
OozieHUE-调度-Spark2
环境 {代码…} yarn local 模式 进入 Workspace 进入 lib 目录,并上传 jar…
-
Scala-implicit-隐式转换安全驾驶指南
2 转换方法的调用者:简单来说,如obj.f(),如果obj对象没有f方法,则尝试将obj转换为拥有f方法的类…
-
Spark中的RDD的分区算法值得借鉴
(0 until numSlices).iterator 是将分区数变成Iterator,再通过map算法将
-
Spark-2x-与-Java-8-下-WordCount-示例
不用 lambda 的基础版 {代码…} 用 lambda 的基础版 {代码…} 用 lambda 的…
-
sortByKey引发的疑问jobshufflecache
sortByKey,一个transform算子。为什么transform算子会引发一个job呢?翻看源码,
-
Hadoop-MapReduce-Spark-配置项
适用范围 本文涉及到的配置项主要针对 Hadoop 2.x,Spark 2.x。 MapReduce 官方文档…
-
在-Apache-Spark-中利用-HyperLogLog-函数实现高级分析
预聚合是高性能分析中的常用技术,例如,每小时100亿条的网站访问数据可以通过对常用的查询纬度进行聚合,被降低到…