spark流媒体-制作完成后如何通知消费者?

drkbr07n  于 2021-06-07  发布在  Kafka
关注(0)|答案(1)|浏览(226)

有没有可能 notify 这个 Consumer ,一旦 Producer 将所有数据发布到 Kafka topic ?
在多个分区中可能有相同的数据(具有一些唯一的字段),因此我需要对数据进行分组并进行一些计算。
我想用 Sliding window 但问题是我们不知道制作者是否完成了数据的发布?
消息量为 around 50K ,Kafka能应付吗 50K messages[Single partition] 在几秒钟内,如果我们有更好的配置经纪人?
目前,我们计划有多个分区来分割数据 Default Partitioner .
有什么有效的方法来处理吗?
更新:
每十五分钟一次,制作者得到数据并开始将数据发布到kafka topic,我确信这是批处理的用例,但这是我们当前的设计。

5ktev3wc

5ktev3wc1#

spark流媒体不是这样的。它的工作方式是无限的数据流在每个批处理间隔中流入并得到处理。这意味着,如果您想发出一个逻辑“批处理结束”信号,您需要发送一条消息,指示这批数据已经结束,从而允许您将处理后的消息发送到所需的输出接收器。
实现这一点的一种方法是使用有状态流,它跨批聚合数据,并允许在批间隔之间保持状态。

相关问题