数字水印中的后期数据处理

uurv41yg 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(335)

spark中有没有一种方法可以处理超过水印的数据？
考虑一个发送消息的设备的用例，这些消息需要在kafka+spark中处理。虽然99%的消息在10分钟内被传递到spark服务器，但偶尔一个设备可能会离开连接区域一天或一周，并在内部缓冲消息，然后一旦连接恢复，在一周后传递它们。
水印间隔必须相当有限，因为（1）主线情况下的结果必须及时生成，并且（2）由于spark内部的缓冲空间也有限，因此spark不能在一周的水印窗口中为所有缓冲的设备保留一周的消息。
在常规的spark流结构中，经过水印的消息被丢弃。
有没有办法截获那些“非常晚”的消息，并将它们路由到处理程序或单独的流——只有那些不在水印范围内的“被拒绝”的消息？

apache-spark spark-structured-streaming

来源：https://stackoverflow.com/questions/63591740/late-data-handling-in-spark-past-watermark