有没有可能 notify
这个 Consumer
,一旦 Producer
将所有数据发布到 Kafka topic
?
在多个分区中可能有相同的数据(具有一些唯一的字段),因此我需要对数据进行分组并进行一些计算。
我想用 Sliding window
但问题是我们不知道制作者是否完成了数据的发布?
消息量为 around 50K
,Kafka能应付吗 50K messages[Single partition]
在几秒钟内,如果我们有更好的配置经纪人?
目前,我们计划有多个分区来分割数据 Default Partitioner
.
有什么有效的方法来处理吗?
更新:
每十五分钟一次,制作者得到数据并开始将数据发布到kafka topic,我确信这是批处理的用例,但这是我们当前的设计。
1条答案
按热度按时间5ktev3wc1#
spark流媒体不是这样的。它的工作方式是无限的数据流在每个批处理间隔中流入并得到处理。这意味着,如果您想发出一个逻辑“批处理结束”信号,您需要发送一条消息,指示这批数据已经结束,从而允许您将处理后的消息发送到所需的输出接收器。
实现这一点的一种方法是使用有状态流,它跨批聚合数据,并允许在批间隔之间保持状态。