使用hadoop扩展计算：如何正确设计

nom7f22z 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(195)

假设我想使用hadoop来扩展集群上的应用程序，并处理大量数据。假设我有大量的时间序列可以存储在hbase上（可以用更好的想法来详细说明这一点）（可能用一列作为frame，即使这样，如果有更好的想法出现，我们也可以更改）。现在算法必须在这些时间序列（实际上是一组时间序列）上运行和缩放，但问题是为了工作，算法需要一个时间序列+另一个时间序列的可变反弹。这就阻止了hadoop的“数据局部性”特性。可以接受吗？有没有更好的办法？也许可以创建一个自定义应用程序而不是map reduce？

hadoop time-series distributed-computing

来源：https://stackoverflow.com/questions/40596902/using-hadoop-to-scale-out-a-calculation-how-to-proper-design