定期生成文件的hadoop

rjjhvcjd 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(297)

我想使用hadoop来处理每n分钟生成一次的输入文件。我应该如何处理这个问题？例如，我每10分钟收到一次美国城市的温度测量，我想计算每周和每月每天的平均温度。
ps：到目前为止，我已经考虑使用ApacheFlume来获取读数。它将从多个服务器获取数据，并定期将数据写入hdfs。从那里我可以阅读和处理它们。
但我如何才能避免一次又一次地处理相同的文件呢？

hadoop Input File Generated

来源：https://stackoverflow.com/questions/22340755/hadoop-on-periodically-generated-files

1条答案

按热度按时间

您应该考虑像storm这样的大数据流处理平台（虽然我非常熟悉，但还有其他平台），它可能更适合您提到的聚合和度量类型。
但是，不管哪种方法，您都要实现一种方法，它以一种非常容易应用刚刚收集的数据的增量的形式来提供最新的度量。此合并的另一个输出是一组新的数据，您将应用下一小时的数据。等等。

赞(0）回复(0）举报 2021-06-04

相关问题

微信公众号

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

Python pillow/PIL无法识别对象“imagedraw”的属性“textsize”
回答(3) 发布于 5个月前
python-3.x ImportError：无法从“typing_extensions”导入名称“deprecated”
回答(2) 发布于 5个月前
python-3.x 我正尝试使用密码学对字典进行加密
回答(1) 发布于 5个月前
在Python的IDLE中导入audiolazy的问题
回答(1) 发布于 5个月前
如何将Python程序中的数据添加到Markdown？
回答(2) 发布于 5个月前