如何在spark流Map函数中广播变量？

atmip9wb 于 2021-06-08 发布在 Kafka

关注(0)|答案(1)|浏览(296)

我知道通常的惯例： sc.broadcast(x) .
但是，目前spark流不支持带有检查点的广播变量。
官方指南提供了一个解决方案：http://spark.apache.org/docs/latest/streaming-programming-guide.html#accumulators-和广播变量。但是，此解决方案只能用于foreachrdd函数。
现在我想使用大的或者不可变量（比如 KafkaProducer )在Map函数（如 flatMapToPair )，但由于没有可见的rdd变量，因此我无法检索spark上下文来广播lazy求值变量。如果使用初始上下文创建数据流或从数据流检索的上下文，则任务将无法序列化。
那么如何在Map函数中使用广播变量呢？或者在Map函数中使用大的或不可变量有什么解决方法吗？

Java apache-kafka spark-streaming

来源：https://stackoverflow.com/questions/38388883/how-to-broadcast-a-variable-in-a-spark-streaming-mapping-function