无分类 Scala并发编程实战Monitor与synchronized Java并发编程最常用和易用的技术莫过于synchronized关键字,而Scala的并发编程之旅也可以从synchronized开始。而synchronized的背后其实是monitor技术。
无分类 Spark-Relational-Cache实现亚秒级响应的交互式分析 本场视频链接:[链接] 本场PPT资料:[链接] 本次分享主要分为以下四个方面: 项目介绍 技术分析 如何使用 性能分析 一、项目介绍 项目背景 阿里云EMR是一个开源大数据解决方案,目前EMR上面已经集成了很多开源组件,并且组件数量也在不断的增加中。EMR下层可以访问各种各样的存储,比如对象存储OSS、集群内部自建的HDFS…
无分类 Spark框架Win10系统下搭建Scala开发环境 一、Scala环境基础 Scala对Java相关的类,接口进行了包装,所以依赖Jvm环境。 {代码…} 二、配置Scala解压版 1)注意路径无空格和中文 2)配置环境变量 添加到path目录 {代码…} 3)检测是否安装 配置成功,没错就是这么简单。 三、配置Idea开发 1)插件安装,就是点点点 2)新建两个maven项目在scala-base-hello 的 m…
无分类 PY-PySparkSpark-CoreRDD 前言 第一篇传送门:[链接] RDD认知 RDD是什么? RDD: 弹性分布式数据集(Resiliennt Distributed Datasets) 转为格式RDD的几种方式: {代码…} RDD核心概念 Application: {代码…} Driver: {代码…} Worker Node: {代码…} Executor: {代码…} Job: {代码…} Task: {代码…} Stage: {代码…} Cluster Manager:…
无分类 Spark-Core-解析RDD Spark Core是Spark的核心部分,是Spark SQL,Spark Streaming,Spark MLlib等等其他模块的基础, Spark Core提供了开发分布式应用的脚手架,使得其他模块或应用的开发者不必关心复杂的分布式计算如何实现,只需使用Spark Core提供的分布式数据结构RDD及丰富的算子API,以类似开发单机应用的方式来进行开发。
无分类 Redis-Streams与Spark的完美结合 最近,我有幸在 Spark +AI 峰会上发表了题目为“Redis + Structured Streaming:扩展您的持续应用的完美组合”的演讲。
无分类 SparkStreaming整合Flume的pull报错解决方案 先说下版本情况:Spark 2.4.3Scala 2.11.12Flume-1.6.0 Flume配置文件: {代码…} 启动脚本: {代码…} 到以上步骤均没有出现问题。但是将本地测试代码启动,尝试与Flume的sink进行连接时,崩了… Flume控制台报错: {代码…} 本地IDE控制台: {代码…} 解决思路 既然都有这个org.apache.spark.streaming.flume.sin…
无分类 SparkStreaming整合Flume的pull方式之启动报错解决方案 由于用到了agent的sink是 org.apache.spark.streaming.flume.sink.SparkSink类型,需要把spark-streaming-flume-sink_2.11-2.4.3.jar复制到flume的lib目录,否则,会报找不到org.apache.spark.streaming.flume.sink.SparkSink类的错误。