如何每小时读取一次大数据集

wnavrhmk 于 2021-06-07 发布在 Kafka

关注(0)|答案(0)|浏览(223)

例如，我有3000万条记录，存储在我们的数据存储中。然后我想每隔2小时随机读取其中的一小部分：例如，我想每2小时读取100万条随机记录，并对它们采取措施。解决这类问题的最佳方法是什么？
我应该全部读取3000万，并将它们存储在队列中（例如，kafak），然后每隔2小时运行一个作业从队列中读取。
或者我应该把我的查询设计成读取100万条记录，然后有一个作业，每2小时运行一次查询，得到数据集，然后在处理之后删除它们？
有没有适合这种情况的开源框架？只有在总数据就绪的情况下，如何安排作业？
谢谢，陈

elasticsearch apache-kafka bigdata workflow

来源：https://stackoverflow.com/questions/23034549/how-to-read-large-data-set-at-hourly-interval