spark流性能调整

l3zydbqr  于 2021-06-07  发布在  Kafka
关注(0)|答案(0)|浏览(253)

我有一个 spark-streaming 在python中,它直接从kafka通过 KafkaUtils.createDirectStream 然后通过 reduceByKeyAndWindow (参见此处)。
但是,我现在遇到了一个奇怪的问题,作业运行时 1min 窗口设置,但有时数据处理时间 10min ,我发现,每次出现这种奇怪的问题时,看起来一个任务比其他任务花费的时间要长,请看下图。
任务516项,完成515项,落后1项。

如果我按照描述链接进一步挖掘,下面是我发现的(见下文),看起来有多个阶段,之前的所有阶段都很快完成(持续时间小于1s),但最后一个阶段有36个任务,其中35个完成了,但有1个落后。

你知道为什么会出现这个问题吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题