标签： spark

基于Influxdb对InfluxDBResultMapper的一点扩展

由于业务需要“灵活可配置”的功能需求，在使用java开发Influxdb查询功能的时候，遇到了一个问题，Mea…

2019年10月14日
RDD基础笔记

基础Spark中的RDD是一个不可变的分布式对象集合。每个RDD都被分为多个分区，这些分区运行在集群中的不同节…

2019年10月14日
Spark2-的序列化JavaSerializerKryoSerializer

spark 默认的序列化器是 JavaSerializer，能够支持所有对象自动的序列化，但是效率比较低。

2019年10月12日
OozieHUE-调度-Spark2

环境 {代码…} yarn local 模式进入 Workspace 进入 lib 目录，并上传 jar…

2019年10月11日
Scala-implicit-隐式转换安全驾驶指南

2 转换方法的调用者：简单来说，如obj.f()，如果obj对象没有f方法，则尝试将obj转换为拥有f方法的类…

2019年9月30日
Spark中的RDD的分区算法值得借鉴

(0 until numSlices).iterator 是将分区数变成Iterator，再通过map算法将

2019年9月28日
Spark-2x-与-Java-8-下-WordCount-示例

不用 lambda 的基础版 {代码…} 用 lambda 的基础版 {代码…} 用 lambda 的…

2019年9月25日
sortByKey引发的疑问jobshufflecache

sortByKey，一个transform算子。为什么transform算子会引发一个job呢？翻看源码，

2019年9月25日
Hadoop-MapReduce-Spark-配置项

适用范围本文涉及到的配置项主要针对 Hadoop 2.x，Spark 2.x。 MapReduce 官方文档…

2019年9月19日
在-Apache-Spark-中利用-HyperLogLog-函数实现高级分析

预聚合是高性能分析中的常用技术，例如，每小时100亿条的网站访问数据可以通过对常用的查询纬度进行聚合，被降低到…

2019年9月16日