无分类 谈谈-Spark-应用日志级别的坑 upload a custom log4j.properties using spark-submit, by adding it to the –files list of files to be uploaded with the application.
无分类 Spark应用开发上 Spark架构:关键名词:masterworkerexecutortaskdriverSpark集群启动之后,是主从式架构(master–worker),95%的大数据架构都是主从式hadoop-yarn:Yarn:主节点:resourcemanager管理整个集群的资源从节点:nodema…
无分类 Spark内置图像数据源初探 在Apache Spark 2.4中引入了一个新的内置数据源, 图像数据源.用户可以通过DataFrame API加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象,用户可以对图像数据进行简单的处理,然后使用MLlib进…
无分类 Spark-Streaming的优化之路从Receiver到Direct模式 随着大数据的快速发展,业务场景越来越复杂,离线式的批处理框架MapReduce已经不能满足业务,大量的场景需要实时的数据处理结果来进行分析、决策。Spark Streaming是一种分布式的大数据实时计算框架,他提供了动…
无分类 大数据系列Spark学习笔记之Spark中的RDD 1. Spark中的RDD Resilient Distributed Datasets(弹性分布式数据集) Spark中的最基本的抽象 有了RDD的存在我们就可以像操作本地集合一样操作分布式的数据 包含所有元素的分区的集合 RDD包含了很多的分区 2. RDD…
无分类 大数据系列Spark学习笔记之-Spark-SQL 1. Spark SQL是什么? 处理结构化数据的一个spark的模块 它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用 2. Spark SQL的特点 多语言的接口支持(java python scala) 统一的数据访问 完全兼容hi…