我想做的是收集来自多个物联网设备的数据,在spark结构化流媒体中,每秒钟发送一次数据,并以某种方式组合设备时间戳,对它们应用ml算法。每个设备都可以发送如下数据:
{
deviceId : "deviceId1",
value: 123,
timestamp: 353215215
}
所以我将有这个消息队列。我想以某种方式将它们连接到dataframe中,以便在dataframe中拥有每一行,如:
deviceId1 | deviceId2 | timestamp
123 321 21421421
我认为只有一个结构化流(一个无界Dataframe)。在这个Dataframe中,我将把它转换成一行连接设备消息。
其目的是从这一行生成多维点,并将其传递给ml算法。我想了解如何处理这种情况的最佳实践或方法。我看到的一种方法是基于时间戳连接行。但这意味着我们不能从设备中获得时间戳的小增量。
暂无答案!
目前还没有任何答案,快来回答吧!