关于spark:第四篇Spark-Streaming编程指南1

Spark Streaming是构建在Spark Core根底之上的流解决框架，是Spark十分重要的组成部分。Spark Streaming于2013年2月在Spark0.7.0版本中引入，倒退至今曾经成为了在企业中宽泛应用的流解决平台。在2016年7月，Spark2.0版本中引入了Structured Streaming，并在Spark2.2版本中达到了生产级别，Structured Streaming是构建在Spark SQL之上的流解决引擎，用户能够应用DataSet/DataFreame API进行流解决，目前Structured Streaming在不同的版本中倒退速度很快。值得注意的是，本文不会对Structured Streaming做过多解说，次要针对Spark Streaming进行探讨，包含以下内容：

Spark Streaming介绍
Transformations与Output Operations
Spark Streaming数据源(Sources)
Spark Streaming 数据汇(Sinks)

Spark Streaming介绍

什么是DStream

Spark Streaming是构建在Spark Core的RDD根底之上的，与此同时Spark Streaming引入了一个新的概念：DStream（Discretized Stream，离散化数据流)，示意连续不断的数据流。DStream形象是Spark Streaming的流解决模型，在外部实现上，Spark Streaming会对输出数据依照工夫距离（如1秒）分段，每一段数据转换为Spark中的RDD，这些分段就是Dstream，并且对DStream的操作都最终转变为对相应的RDD的操作。如下图所示：

如上图，这些底层的RDD转换操作是由Spark引擎来实现的，DStream的操作屏蔽了许多底层的细节，为用户提供了比拟方便使用的高级API。

计算模型

在Flink中，批处理是流解决的特例，所以Flink是人造的流解决引擎。而Spark Streaming则不然，Spark Streaming认为流解决是批处理的特例，即Spark Streaming并不是纯实时的流解决引擎，在其外部应用的是microBatch模型，行将流解决看做是在较小工夫距离内(batch interval)的一些列的批处理。对于工夫距离的设定，须要联合具体的业务提早需要，能够实现秒级或者分钟级的距离。

Spark Streaming会将每个短时间距离内接管的数据存储在集群中，而后对其作用一系列的算子操作(map,reduce, groupBy等)。执行过程见下图：

如上图：Spark Streaming会将输出的数据流宰割成一个个小的batch，每一个batch都代表这一些列的RDD，而后将这些batch存储在内存中。通过启动Spark作业来解决这些batch数据，从而实现一个流解决利用。

Spark Streaming的工作机制

概览

在Spark Streaming中，会有一个组件Receiver，作为一个长期运行的task跑在一个Executor上
每个Receiver都会负责一个input DStream（比方从文件中读取数据的文件流，比方套接字流，或者从Kafka中读取的一个输出流等等）
Spark Streaming通过input DStream与内部数据源进行连贯，读取相干数据

执行细节

1.启动StreamingContext
2.StreamingContext启动receiver，该receiver会始终运行在Executor的task中。用于连续不断地接收数据源，有两种次要的reciver，一种是牢靠的reciver，当数据被接管并且存储到spark，发送回执确认，另一种是不牢靠的reciver，对于数据源不发送回执确认。接管的数据会被缓存到work节点内存中，也会被复制到其余executor的所在的节点内存中，用于容错解决。
3.Streaming context周期触发job(依据batch-interval工夫距离)进行数据处理。
4.将数据输入。

Spark Streaming编程步骤

通过下面的剖析，对Spark Streaming有了初步的意识。那么该如何编写一个Spark Streaming应用程序呢？一个Spark Streaming个别包含一下几个步骤：

1.创立StreamingContext
2.创立输出DStream来定义输出源
3.通过对DStream利用转换操作和输入操作来定义解决逻辑
4.用streamingContext.start()来开始接收数据和解决流程
5.streamingContext.awaitTermination()办法来期待解决完结

  object StartSparkStreaming {
    def main(args: Array[String]): Unit = {
      val conf = new SparkConf()
        .setMaster("local[2]")
        .setAppName("Streaming")
      // 1.创立StreamingContext
      val ssc = new StreamingContext(conf, Seconds(5))
      Logger.getLogger("org.apache.spark").setLevel(Level.OFF)
      Logger.getLogger("org.apache.hadoop").setLevel(Level.OFF)
      // 2.创立DStream
      val lines = ssc.socketTextStream("localhost", 9999)
      // 3.定义流计算解决逻辑
      val count = lines.flatMap(_.split(" "))
        .map(word => (word, 1))
        .reduceByKey(_ + _)
      // 4.输入后果
      count.print()
      // 5.启动
      ssc.start()
      // 6.期待执行
      ssc.awaitTermination()
    }
  }

Transformations与Output Operations

DStream是不可变的，这意味着不能间接扭转它们的内容，而是通过对DStream进行一系列转换(Transformation)来实现预期的利用程序逻辑。每次转换都会创立一个新的DStream，该DStream示意来自父DStream的转换后的数据。 DStream转换是惰性(lazy)的，这象征只有执行output操作之后，才会去执行转换操作，这些触发执行的操作称之为output operation。

Transformations

Spark Streaming提供了丰盛的transformation操作，这些transformation又分为了有状态的transformation和无状态的transformation。除此之外，Spark Streaming也提供了一些window操作，值得注意的是window操作也是有状态的。具体细节如下：

无状态的transformation

无状态的transformation是指每一个micro-batch的解决是互相独立的，即以后的计算结果不受之前计算结果的影响，Spark Streaming的大部分算子都是无状态的，比方常见的map(),flatMap(),reduceByKey()等等。

map(func)

对源DStream的每个元素，采纳func函数进行转换，失去一个新的Dstream

    /** Return a new DStream by applying a function to all elements of this DStream. */
    def map[U: ClassTag](mapFunc: T => U): DStream[U] = ssc.withScope {
      new MappedDStream(this, context.sparkContext.clean(mapFunc))
    }

flatMap(func)

与map类似，然而每个输出项可用被映射为0个或者多个输入项

  /**
   * Return a new DStream by applying a function to all elements of this DStream,
   * and then flattening the results
   */
  def flatMap[U: ClassTag](flatMapFunc: T => TraversableOnce[U]): DStream[U] = ssc.withScope {
    new FlatMappedDStream(this, context.sparkContext.clean(flatMapFunc))
  }

filter(func)

返回一个新的DStream，仅蕴含源DStream中满足函数func的项

  /** Return a new DStream containing only the elements that satisfy a predicate. */
  def filter(filterFunc: T => Boolean): DStream[T] = ssc.withScope {
    new FilteredDStream(this, context.sparkContext.clean(filterFunc))
  }

repartition(numPartitions)

通过创立更多或者更少的分区扭转DStream的并行水平

/**
   * Return a new DStream with an increased or decreased level of parallelism. Each RDD in the
   * returned DStream has exactly numPartitions partitions.
   */
  def repartition(numPartitions: Int): DStream[T] = ssc.withScope {
    this.transform(_.repartition(numPartitions))
  }

reduce(func)

利用函数func汇集源DStream中每个RDD的元素，返回一个蕴含单元素RDDs的新DStream

  /**
   * Return a new DStream in which each RDD has a single element generated by reducing each RDD
   * of this DStream.
   */
  def reduce(reduceFunc: (T, T) => T): DStream[T] = ssc.withScope {
    this.map((null, _)).reduceByKey(reduceFunc, 1).map(_._2)
  }

count()

统计源DStream中每个RDD的元素数量

/**
   * Return a new DStream in which each RDD has a single element generated by counting each RDD
   * of this DStream.
   */
  def count(): DStream[Long] = ssc.withScope {
    this.map(_ => (null, 1L))
        .transform(_.union(context.sparkContext.makeRDD(Seq((null, 0L)), 1)))
        .reduceByKey(_ + _)
        .map(_._2)
  }

union(otherStream)

返回一个新的DStream，蕴含源DStream和其余DStream的元素

/**
   * Return a new DStream by unifying data of another DStream with this DStream.
   * @param that Another DStream having the same slideDuration as this DStream.
   */
  def union(that: DStream[T]): DStream[T] = ssc.withScope {
    new UnionDStream[T](Array(this, that))
  }

countByValue()

利用于元素类型为K的DStream上，返回一个（K，V）键值对类型的新DStream，每个键的值是在原DStream的每个RDD中的呈现次数,比方lines.flatMap(_.split(" ")).countByValue().print(),对于输出：spark spark flink,将输入：(spark,2),(flink,1),即依照元素值进行分组，而后统计每个分组的元素个数。

从源码能够看出：底层实现为map((_,1L)).reduceByKey((x: Long, y: Long) => x + y, numPartitions)，即先按以后的元素映射为一个tuple，其中key即为以后元素的值，而后再依照key做汇总。

/**
   * Return a new DStream in which each RDD contains the counts of each distinct value in
   * each RDD of this DStream. Hash partitioning is used to generate
   * the RDDs with `numPartitions` partitions (Spark's default number of partitions if
   * `numPartitions` not specified).
   */
  def countByValue(numPartitions: Int = ssc.sc.defaultParallelism)(implicit ord: Ordering[T] = null)
      : DStream[(T, Long)] = ssc.withScope {
    this.map((_, 1L)).reduceByKey((x: Long, y: Long) => x + y, numPartitions)
  }

reduceByKey(func, [numTasks])

当在一个由(K,V)键值对组成的DStream上执行该操作时，返回一个新的由(K,V)键值对组成的DStream，每一个key的值均由给定的recuce函数（func）汇集起来

比方：lines.flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).print()

对于输出：spark spark flink，将输入：(spark,2),(flink,1)

  /**
   * Return a new DStream by applying `reduceByKey` to each RDD. The values for each key are
   * merged using the associative and commutative reduce function. Hash partitioning is used to
   * generate the RDDs with Spark's default number of partitions.
   */
  def reduceByKey(reduceFunc: (V, V) => V): DStream[(K, V)] = ssc.withScope {
    reduceByKey(reduceFunc, defaultPartitioner())
  }

join(otherStream, [numTasks])

当利用于两个DStream（一个蕴含（K,V）键值对,一个蕴含(K,W)键值对），返回一个蕴含(K, (V, W))键值对的新Dstream

  /**
   * Return a new DStream by applying 'join' between RDDs of `this` DStream and `other` DStream.
   * Hash partitioning is used to generate the RDDs with Spark's default number of partitions.
   */
  def join[W: ClassTag](other: DStream[(K, W)]): DStream[(K, (V, W))] = ssc.withScope {
    join[W](other, defaultPartitioner())
  }

cogroup(otherStream, [numTasks])

当利用于两个DStream（一个蕴含（K,V）键值对,一个蕴含(K,W)键值对），返回一个蕴含(K, Seq[V], Seq[W])的元组

// 输出：spark
// 输入：(spark,(CompactBuffer(1),CompactBuffer(1)))
val DS1 = lines.flatMap(_.split(" ")).map((_,1))
val DS2 = lines.flatMap(_.split(" ")).map((_,1))
DS1.cogroup(DS2).print()

  /**
   * Return a new DStream by applying 'cogroup' between RDDs of `this` DStream and `other` DStream.
   * Hash partitioning is used to generate the RDDs with Spark's default number
   * of partitions.
   */
  def cogroup[W: ClassTag](
      other: DStream[(K, W)]): DStream[(K, (Iterable[V], Iterable[W]))] = ssc.withScope {
    cogroup(other, defaultPartitioner())
  }

transform(func)

通过对源DStream的每个RDD利用RDD-to-RDD函数，创立一个新的DStream。反对在新的DStream中做任何RDD操作

// 输出：spark spark flink
// 输入：(spark,2)、(flink,1)
val lines = ssc.socketTextStream("localhost", 9999)
val resultDStream = lines.transform(rdd => {
rdd.flatMap(_.split("\\W")).map((_, 1)).reduceByKey(_ + _)
})
resultDStream.print()

  /**
   * Return a new DStream in which each RDD is generated by applying a function
   * on each RDD of 'this' DStream.
   */
  def transform[U: ClassTag](transformFunc: RDD[T] => RDD[U]): DStream[U] = ssc.withScope {
    val cleanedF = context.sparkContext.clean(transformFunc, false)
    transform((r: RDD[T], _: Time) => cleanedF(r))
  }

有状态的transformation

有状态的transformation是指每个micro-batch的解决不是互相独立的，即以后的micro-batch解决依赖于之前的micro-batch计算结果。常见的有状态的transformation次要有countByValueAndWindow, reduceByKeyAndWindow , mapWithState, updateStateByKey等等。其实所有的基于window的操作都是有状态的，因为追踪整个窗口内的数据。

对于有状态的transformation和Window Operations，参见下文。

Output Operations

应用Output operations能够将DStream写入多内部存储设备或打印到控制台。上文提到，Spark Streaming的transformation是lazy的，因而须要Output Operation进行触发计算，其性能相似于RDD的action操作。具体详见下文Spark Streaming 数据汇(Sinks)。

Spark Streaming数据源

Spark Streaming的目标是成为一个通用的流解决框架，为了实现这一指标，Spark Streaming应用Receiver来集成各种各样的数据源。然而，对于有些数据源(如kafka),Spark Streaming反对应用Direct的形式去接收数据，这种形式比Receiver形式性能要好。

基于Receiver的形式

Receiver的作用是从数据源收集数据，而后将数据传送给Spark Streaming。基本原理是：随着数据的一直到来，在绝对应的batch interval工夫距离内，这些数据会被收集并且打包成block，只有等到batch interval工夫实现了，收集的数据block会被发送给spark进行解决。

如上图：当Spark Streaming启动时，receiver开始收集数据。在t0的batch interval完结时(即收集完了该时间段内的数据)，收集到的block #0会被发送到Spark进行解决。在t2时刻，Spark会解决t1的batch interval的数据block，与此同时会不停地收集t2的batch interval对应的block#2。

常见的基于Receiver的数据源包含：Kafka, Kinesis, Flume,Twitter。除此之外，用户也能够通过继承 Receiver抽象类，实现onStart()与onStop()两个办法，进行自定义Receiver。本文不会对基于Receiver的数据源做过多探讨，次要针对基于Direct的Kafka数据源进行具体解释。

基于Direct的形式

Spark 1.3中引入了这种新的无Receiver的Direct办法，以确保更强的端到端保障。该办法不是应用Receiver来接收数据，而是定期查问Kafka每个topic+partition中的最新偏移量，并相应地定义要在每个批次中解决的偏移量范畴。启动用于解决数据的作业时，Kafka的简略consumer API用于读取Kafka定义的偏移量范畴（相似于从文件系统读取文件）。请留神，此性能是在Scala和Java API的Spark 1.3引入的，在Python API的Spark 1.4中引入的。

基于Direct的形式具备以下长处：

简化并行读取

如果要读取多个partition，不须要创立多个输出DStream而后对他们进行union操作。Spark会创立跟Kafka partition一样多的RDD partition，并且会并行从kafka中读取数据。所以在kafka partition和RDD partition之间，有一一对应的关系。

高性能

如果要保证数据零失落，在基于Receiver的形式中，须要开启WAL机制。这种形式其实效率很低，因为数据理论被复制了两份，kafka本人自身就有高牢靠的机制，会对数据复制一份，而这里又会复制一份到WAL中。而基于Direct的形式，不依赖于Receiver，不须要开启WAL机制，只有kafka中做了数据的复制，那么就能够通过kafka的正本进行复原。

Exactly-once语义

基于Receiver的形式，应用kafka的高阶API来在Zookeeper中保留生产过的offset。这是生产kafka数据的传统形式。这种形式配合WAL机制，能够保证数据零失落的高可靠性，然而却无奈保障Exactly-once语义(Spark和Zookeeper之间可能是不同步的)。基于Direct的形式，应用kafka的简略API，Spark Streaming本人就负责追踪生产的offset，并保留在checkpoint中。Spark本人肯定是同步的，因而能够保证数据时生产一次且仅生产一次。

Spark Streaming集成kafka

应用形式

应用KafkaUtils增加Kafka数据源，源码如下：

  def createDirectStream[K, V](
      ssc: StreamingContext,
      locationStrategy: LocationStrategy,
      consumerStrategy: ConsumerStrategy[K, V]
    ): InputDStream[ConsumerRecord[K, V]] = {
    val ppc = new DefaultPerPartitionConfig(ssc.sparkContext.getConf)
    createDirectStream[K, V](ssc, locationStrategy, consumerStrategy, ppc)
  }

具体参数解释：

K：Kafka音讯key的类型
V：Kafka音讯value的类型
ssc：StreamingContext
locationStrategy: LocationStrategy，依据Executor中的主题的分区来调度consumer，即尽可能地让consumer凑近leader partition。该配置能够晋升性能，但对于location的抉择只是一种参考，并不是相对的。能够抉择如下形式：
- PreferBrokers：Spark和Kafka运行在同一个节点上，能够应用此种形式
- PreferConsistent：大部分状况应用此形式，它将统一地在所有Executor之间调配分区
- PreferFixed：将特定的主题分区搁置到特定的主机上，在数据负载不平衡时应用

留神：少数状况下应用PreferConsisten，其余两种形式只是在特定的场景应用。这种配置只是一种参考，具体的状况还是会依据集群的资源主动调整。

consumerStrategy：生产策略，次要有上面三种形式：
- Subscribe：订阅指定主题名称的主题汇合
- SubscribePattern：通过正则匹配，订阅相匹配的主题数据
- Assign：订阅一个主题+分区的汇合

留神：大多数状况下应用Subscribe形式。

应用案例

object TolerateWCTest {

  def createContext(checkpointDirectory: String): StreamingContext = {

    val sparkConf = new SparkConf()
      .set("spark.streaming.backpressure.enabled", "true")
      //每秒钟从kafka分区中读取的records数量,默认not set
      .set("spark.streaming.kafka.maxRatePerPartition", "1000") //
      //Driver为了获取每个leader分区的最近offsets，间断进行重试的次数，
      //默认是1，示意最多重试2次，仅仅实用于 new Kafka direct stream API
      .set("spark.streaming.kafka.maxRetries", "2")
      .setAppName("TolerateWCTest")

    val ssc = new StreamingContext(sparkConf, Seconds(3))
    ssc.checkpoint(checkpointDirectory)
    val topic = Array("testkafkasource2")
    val kafkaParam = Map[String, Object](
      "bootstrap.servers" -> "kms-1:9092",
      "key.deserializer" -> classOf[StringDeserializer],
      "value.deserializer" -> classOf[StringDeserializer],
      "group.id" -> "group0",
      "auto.offset.reset" -> "latest", //默认latest，
      "enable.auto.commit" -> (false: java.lang.Boolean)) //默认true,false:手动提交

    val lines = KafkaUtils.createDirectStream(
      ssc,
      LocationStrategies.PreferConsistent,
      ConsumerStrategies.Subscribe[String, String](topic, kafkaParam))

    val words = lines.flatMap(_.value().split(" "))
    val wordDstream = words.map(x => (x, 1))
    val stateDstream = wordDstream.reduceByKey(_ + _)

    stateDstream.cache()
    //参照batch interval设置，
    //不得低于batch interval，否则会报错，
    //设为batch interval的2倍
    stateDstream.checkpoint(Seconds(6))

    //把DStream保留到MySQL数据库中
    stateDstream.foreachRDD(rdd =>
      rdd.foreachPartition { record =>
        var conn: Connection = null
        var stmt: PreparedStatement = null
        // 给每个partition，获取一个连贯
        conn = ConnectionPool.getConnection
        // 遍历partition中的数据，应用一个连贯，插入数据库

        while (record.hasNext) {
          val wordcounts = record.next()
          val sql = "insert into wctbl(word,count) values (?,?)"
          stmt = conn.prepareStatement(sql);
          stmt.setString(1, wordcounts._1.trim)
          stmt.setInt(2, wordcounts._2.toInt)
          stmt.executeUpdate()
        }
        // 用完当前，将连贯还回去
        ConnectionPool.returnConnection(conn)
      })
    ssc
  }

  def main(args: Array[String]) {

    val checkpointDirectory = "hdfs://kms-1:8020/docheckpoint"

    val ssc = StreamingContext.getOrCreate(
      checkpointDirectory,
      () => createContext(checkpointDirectory))
    ssc.start()
    ssc.awaitTermination()
  }
}

Spark Streaming 数据汇(Sinks)

Output Operation介绍

Spark Streaming提供了上面内置的Output Operation，如下：

print()

打印数据数据到规范输入，如果不传递参数，默认打印前10个元素

saveAsTextFiles(prefix, [suffix])

将DStream内容存储到文件系统，每个batch interval的文件名称为`prefix-TIME_IN_MS[.suffix]

saveAsObjectFiles(prefix, [suffix])

将DStream的内容保留为序列化的java对象的SequenceFile，每个batch interval的文件名称为prefix-TIME_IN_MS[.suffix],Python API不反对此办法。

saveAsHadoopFiles(prefix, [suffix])

将DStream内容保留为Hadoop文件，每个batch interval的文件名称为prefix-TIME_IN_MS[.suffix],Python API不反对此办法。

foreachRDD(func)

通用的数据输入算子，func函数将每个RDD的数据输入到内部存储设备，比方将RDD写入到文件或者数据库。

 /**
   * Apply a function to each RDD in this DStream. This is an output operator, so
   * 'this' DStream will be registered as an output stream and therefore materialized.
   */
  def foreachRDD(foreachFunc: RDD[T] => Unit): Unit = ssc.withScope {
    val cleanedF = context.sparkContext.clean(foreachFunc, false)
    foreachRDD((r: RDD[T], _: Time) => cleanedF(r), displayInnerRDDOps = true)
  }

  /**
   * Apply a function to each RDD in this DStream. This is an output operator, so
   * 'this' DStream will be registered as an output stream and therefore materialized.
   */
  def foreachRDD(foreachFunc: (RDD[T], Time) => Unit): Unit = ssc.withScope {
    // because the DStream is reachable from the outer object here, and because
    // DStreams can't be serialized with closures, we can't proactively check
    // it for serializability and so we pass the optional false to SparkContext.clean
    foreachRDD(foreachFunc, displayInnerRDDOps = true)
  }

  private def foreachRDD(
      foreachFunc: (RDD[T], Time) => Unit,
      displayInnerRDDOps: Boolean): Unit = {
    new ForEachDStream(this,
      context.sparkContext.clean(foreachFunc, false), displayInnerRDDOps).register()
  }

foreachRDD是一个十分重要的操作，用户能够应用它将解决的数据输入到内部存储设备。对于foreachRDD的应用，须要特点别留神一些细节问题。具体分析如下：

如果将数据写入到MySQL，须要获取连贯Connection。用户可能不经意的在Spark Driver中创立一个连贯对象，而后在Work中应用它将数据写入外部设备，代码如下：

dstream.foreachRDD { rdd =>
  val connection = createNewConnection()  // ①留神：该段代码在driver上执行
  rdd.foreach { record =>
    connection.send(record) // ②留神：该段代码在worker上执行
  }
}

尖叫提醒：下面的应用形式是谬误的，因为须要将connection对象进行序列化，而后发送到driver节点，而这种connection对象是不能被序列化，所以不能跨节点传输。下面代码会报序列化谬误，正确的应用形式是在worker节点创立connection，即在rdd.foreach外部创立connection。形式如下：

dstream.foreachRDD { rdd =>
  rdd.foreach { record =>
    val connection = createNewConnection()
    connection.send(record)
    connection.close()
  }
}

下面的形式解决了不能序列化的问题，然而会为每个RDD的record创立一个connection，通常创立一个connection对象是会存在肯定性能开销的，所以频繁创立和销毁connection对象会造成整体的吞吐量升高。一个比拟好的做法是将rdd.foreach替换为`rdd.foreachPartition `,这样就不必频繁为每个record创立connection，而是为RDD的partition创立connection，大大减少了创立connection带来的开销。

dstream.foreachRDD { rdd =>
  rdd.foreachPartition { partitionOfRecords =>
    val connection = createNewConnection()
    partitionOfRecords.foreach(record => connection.send(record))
    connection.close()
  }
}

其实下面的应用形式还能够进一步优化，能够通过在多个RDD或者批数据间重用连贯对象。用户能够保护一个动态的连贯对象池，重复使用池中的对象将多批次的RDD推送到内部零碎，以进一步节俭开销：

dstream.foreachRDD { rdd =>
  rdd.foreachPartition { partitionOfRecords =>
    val connection = ConnectionPool.getConnection()
    partitionOfRecords.foreach(record => connection.send(record))
    ConnectionPool.returnConnection(connection)  
  }
}

应用案例

模仿数据库连接池

/**
 * 简易版的连接池
 */
public class ConnectionPool {

    // 动态的Connection队列
    private static LinkedList<Connection> connectionQueue;

    /**
     * 加载驱动
     */
    static {
        try {
            Class.forName("com.mysql.jdbc.Driver");
        } catch (ClassNotFoundException e) {
            e.printStackTrace();
        }
    }

    /**
     * 获取连贯，多线程拜访并发管制
     *
     * @return
     */
    public synchronized static Connection getConnection() {
        try {
            if (connectionQueue == null) {
                connectionQueue = new LinkedList<Connection>();
                for (int i = 0; i < 10; i++) {
                    Connection conn = DriverManager.getConnection("jdbc:mysql://localhost:3306/wordcount", "root",
                            "123qwe");
                    connectionQueue.push(conn);
                }
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
        return connectionQueue.poll();
    }

    /**
     * 用完之后，返回一个连贯
     */
    public static void returnConnection(Connection conn) {
        connectionQueue.push(conn);
    }

}

实时统计写入MySQL

object WordCount {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("NetworkWordCount").setMaster("local[2]")
    val ssc = new StreamingContext(sparkConf, Seconds(5))
    val lines = ssc.socketTextStream("localhost", 9999)
    val words = lines.flatMap(_.split(" "))
    val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
    wordCounts.print()
    // 存储到MySQL
    wordCounts.foreachRDD { rdd =>
      rdd.foreachPartition { partition =>
        var conn: Connection = null
        var stmt: PreparedStatement = null
        // 给每个partition，获取一个连贯
        conn = ConnectionPool.getConnection
        // 遍历partition中的数据，应用一个连贯，插入数据库
        while (partition.hasNext) {
          val wordcounts = partition.next()
          val sql = "insert into wctbl(word,count) values (?,?)"
          stmt = conn.prepareStatement(sql);
          stmt.setString(1, wordcounts._1.trim)
          stmt.setInt(2, wordcounts._2.toInt)
          stmt.executeUpdate()

        }
        // 用完当前，将连贯还回去
        ConnectionPool.returnConnection(conn)
      }
    }
    ssc.start()
    ssc.awaitTermination()
  }
}

总结

因为篇幅限度，本文次要对Spark Streaming执行机制、Transformations与Output Operations、Spark Streaming数据源(Sources)、Spark Streaming 数据汇(Sinks)进行了探讨。下一篇将分享基于工夫的窗口操作、有状态的计算、检查点Checkpoint、性能调优等内容。

公众号『大数据技术与数仓』，回复『材料』支付大数据资料包

关于spark:第四篇Spark-Streaming编程指南1

Spark Streaming介绍

什么是DStream

计算模型

Spark Streaming的工作机制

概览

执行细节

Spark Streaming编程步骤

Transformations与Output Operations

Transformations

无状态的transformation

有状态的transformation

Output Operations

Spark Streaming数据源

基于Receiver的形式

基于Direct的形式

Spark Streaming集成kafka

应用形式

应用案例

Spark Streaming 数据汇(Sinks)

Output Operation介绍

应用案例

总结

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于spark:第四篇Spark-Streaming编程指南1

Spark Streaming介绍

什么是DStream

计算模型

Spark Streaming的工作机制

概览

执行细节

Spark Streaming编程步骤

Transformations与Output Operations

Transformations

无状态的transformation

有状态的transformation

Output Operations

Spark Streaming数据源

基于Receiver的形式

基于Direct的形式

Spark Streaming集成kafka

应用形式

应用案例

Spark Streaming 数据汇(Sinks)

Output Operation介绍

应用案例

总结

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复