数字水印中的后期数据处理

uurv41yg  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(335)

spark中有没有一种方法可以处理超过水印的数据?
考虑一个发送消息的设备的用例,这些消息需要在kafka+spark中处理。虽然99%的消息在10分钟内被传递到spark服务器,但偶尔一个设备可能会离开连接区域一天或一周,并在内部缓冲消息,然后一旦连接恢复,在一周后传递它们。
水印间隔必须相当有限,因为(1)主线情况下的结果必须及时生成,并且(2)由于spark内部的缓冲空间也有限,因此spark不能在一周的水印窗口中为所有缓冲的设备保留一周的消息。
在常规的spark流结构中,经过水印的消息被丢弃。
有没有办法截获那些“非常晚”的消息,并将它们路由到处理程序或单独的流——只有那些不在水印范围内的“被拒绝”的消息?

jhkqcmku

jhkqcmku1#

不,没有。Apache·Flink能处理我记得的事情。spark没有用于丢弃数据的馈送。

相关问题