使用kafka查询一段时间内的历史timeseries数据

rm5edbpk 于 2021-06-07 发布在 Kafka

关注(0)|答案(0)|浏览(242)

我正在阅读kafka的文章，试图找到一种方法来将timeseries数据库存储引擎从应用程序中分离出来，让它更像一个通用的独立微服务，而不是像现在这样成为应用程序的一个组成部分。
目前，我们将样本数据（带有时间戳）存储在内部开发的timeseries数据库中，我们的应用程序使我们能够进行专门针对行业的大规模分析。
kafka似乎非常适合连续地将数据流式传输到其中或从中传出（我们也需要这样做），但在过去的一段时间内查询一个数据源，以获得一个数据结果流（因此有一个开始和一个结束），似乎不属于kafka的范围。也就是说，我还没有找到一个合适的方法来创造Kafka。
读了这篇文章：https://www.confluent.io/blog/hello-world-kafka-connect-kafka-streams/ 我想我已经很接近我想要的了，但是我还不知道Kafka是如何在不同的时间段内处理各种不同样本集的各种查询的。
我们在很长一段时间内有很多样本数据集（3年以上的10000个样本集，采样率为每5秒到每1分钟），由于我们的存储有限，我希望Kafka确实提供了一种更“ transient ”的方法，而不是将每个请求的结果数据存储2天（因为它被设置为默认值），如果我理解正确的话，每次我们想做分析的时候都能得到数据。
我就差那么一点，但在Kafka我想不起来该怎么做。
非常感谢您抽出时间。

streaming apache-kafka Database time-series bigdata

来源：https://stackoverflow.com/questions/46305950/querying-historical-timeseries-data-over-a-set-period-of-time-using-kafka