在hive之外聚合是更好的选择吗?

6pp0gazn  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(320)

我有更多的概念性问题。我使用hive来提取数据,然后我想将所有检索到的值插入ibmbigsql(基本上是db2),这样聚合数据会更容易/更快。因此,我想在hive中创建一个视图,我将每晚使用这个视图执行cta,这样我就可以将表迁移到db2并完成其余的聚合。有更好的做法吗?我想做的一切,包括在Hive聚合,但它是非常缓慢的。
谢谢你的建议!

6gpjuf90

6gpjuf901#

考虑到您正在使用cloudera,您有没有理由不在impala中执行聚合?将json数据转换为parquet(如果没有太多嵌套结构的话,我建议这样做)应该不会太贵。另一种方法是使用spark来转换数据(这也取决于集群的大小)。我想给你更具体的提示,但不知道你正在做什么聚合是复杂的

相关问题