kafka-spark流联合流并行化

xt0899hw 于 2021-06-07 发布在 Kafka

关注(0)|答案(1)|浏览(294)

这可能是一个基本的问题，但我有一些困难理解这一点。
我目前正在spark/scala应用程序中使用类似于kafka的microsoft azure事件中心流。
如果我创建了一个unionized流，我相信这将合并多个dstream对象，这些对象被抽象为一个dstream，流中的多个rdd将被并行处理，还是每个rdd将被单独处理？
为了进一步解释这一点，这里有一个简单的例子：

sparkConf.set(SparkArgumentKeys.MaxCores, (partitionCount * 2).toString)

val ssc = new StreamingContext(sparkConf, streamDuration)

val stream = EventHubsUtils.createUnionStream(ssc, hubParams, storageLevel)
stream.checkpoint(streamDuration)

val strings = stream.map(f => new String(f))
strings.foreachRDD(rdd => {
  rdd.map(f => f.split(' '))
})

partitioncount是azure事件中心中的分区数。
初始的“stream.map”是否在每个rdd上并行执行？
“string.foreachrdd”是一次处理一个rdd，还是以某种并行方式处理所有rdd？

apache-kafka apache-spark spark-streaming azure-eventhub

来源：https://stackoverflow.com/questions/39777567/spark-streaming-union-stream-parallelization

1条答案

按热度按时间

twh00eeo1#

每批之后 streamDuration ，spark将收集这个时间窗口中接收到的所有数据到一个rdd，然后Map这个rdd（同样：它是一个rdd，但是Map是并行完成的，就像批处理作业中的Map一样）。
最后一步，对于每个rdd，从 foreachRDD 将被执行。对于每个rdd，意味着它将在每个微批（时间窗口）的rdd上执行。
当然在下一次之后 streamDuration 时间，数据将被再次收集，rdd将被创建（数据仅来自上一次收集和当前收集之间的时间），Map，功能将被赋予foreachrdd
总结：foreachrdd并不意味着一次执行多个rdd，而是意味着每个微批处理中的函数都将应用于这个微批处理

赞(0）回复(0）举报 2021-06-07

我来回答

kafka-spark流联合流并行化

1条答案

相关问题

热门标签

最新问答