spark - 第14页 - 乐趣区

spark 关于spark:第七篇Spark平台下基于LDA的kmeans算法实现

本文次要在Spark平台下实现一个机器学习利用，该利用次要波及LDA主题模型以及K-means聚类。通过本文你能够理解到：文本开掘的根本流程LDA主题模型算法K-means算法Spark平台下LDA主题模型实现Spark平台下基于LDA的K-means算法实现1.文本开掘模块设计1.1文本开掘流程文本剖析是机器学习中的一个很宽泛的畛域，并且在情感分…

spark 关于spark:第六篇Spark-MLlib机器学习1

MLlib是Spark提供的一个机器学习库，通过调用MLlib封装好的算法，能够轻松地构建机器学习利用。它提供了十分丰盛的机器学习算法，比方分类、回归、聚类及举荐算法。除此之外，MLlib对用于机器学习算法的API进行了标准化，从而使将多种算法组合到单个Pipeline或工作流中变得更加容易。通过本文，你能够理解到：

spark 关于spark:第五篇SparkStreaming编程指南2

第四篇|Spark-Streaming编程指南(1)对Spark Streaming执行机制、Transformations与Output Operations、Spark Streaming数据源(Sources)、Spark Streaming 数据汇(Sinks)进行了探讨。本文将连续上篇内容，次要包含以下内容：

spark 关于spark:第四篇Spark-Streaming编程指南1

Spark Streaming是构建在Spark Core根底之上的流解决框架，是Spark十分重要的组成部分。Spark Streaming于2013年2月在Spark0.7.0版本中引入，倒退至今曾经成为了在企业中宽泛应用的流解决平台。在2016年7月，Spark2.0版本中引入了Structured Streaming，并在Spark2.2版本中达到了生产级别，Structured Streaming是构建在…

spark 关于spark:第三篇Spark-SQL编程指南

在《第二篇|Spark Core编程指南》一文中，对Spark的外围模块进行了解说。本文将探讨Spark的另外一个重要模块–Spark SQL，Spark SQL是在Shark的根底之上构建的，于2014年5月公布。从名称上能够看出，该模块是Spark提供的关系型操作API，实现了SQL-on-Spark的性能。对于一些相熟SQL的用户，能够间接应用SQL在Spark上进行…

spark 关于spark:第二篇Spark-core编程指南

在《第一篇|Spark概览》一文中，对Spark的整体风貌进行了论述。本文将深刻探索Spark的外围组件–Spark core，Spark Core是Spark平台的根底通用执行引擎，所有其余性能均建设在该引擎之上。它不仅提供了内存计算性能来进步速度，而且还提供了通用的执行模型以反对各种应用程序，另外，用户能够应用Java，Scala和Python AP…

spark 关于spark:第一篇Spark概览

Apache Spark最后在2009年诞生于美国加州大学伯克利分校的APM实验室，并于2010年开源，现在是Apache软件基金会下的顶级开源我的项目之一。Spark的指标是设计一种编程模型，可能疾速地进行数据分析。Spark提供了内存计算，缩小了IO开销。另外Spark是基于Scala编写的，提供了交互式的编程体验。通过10年的倒退，Spark成为了炙…

spark 关于spark:Spark-StreamingSpark第一代实时计算引擎

尽管SparkStreaming曾经进行更新，Spark的重点也放到了 Structured Streaming ，但因为Spark版本过低或者其余技术选型问题，可能还是会抉择SparkStreaming。SparkStreaming对于工夫窗口，事件工夫尽管撑持较少，但还是能够满足局部的实时计算场景的，SparkStreaming材料较多，这里也做一个简略介绍。

spark 关于spark:用Spark进行实时流计算

Apache Spark 在 2016 年的时候启动了 Structured Streaming 我的项目，一个基于 Spark SQL 的全新流计算引擎 Structured Streaming，让用户像编写批处理程序一样简略地编写高性能的流处理程序。

spark 关于spark:isEmpty类型的action算子需要cache吗

有的时候，须要判断rdd.isEmpty()，以决定是否须要后续操作。而这个isEmpty办法是个action算子。也就是说如果rdd不为空，须要做后续操作的话，那么这个rdd的创立过程可能就执行了两遍。那么rdd须要cache吗？