在hive之外聚合是更好的选择吗？

6pp0gazn 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(320)

我有更多的概念性问题。我使用hive来提取数据，然后我想将所有检索到的值插入ibmbigsql（基本上是db2），这样聚合数据会更容易/更快。因此，我想在hive中创建一个视图，我将每晚使用这个视图执行cta，这样我就可以将表迁移到db2并完成其余的聚合。有更好的做法吗？我想做的一切，包括在Hive聚合，但它是非常缓慢的。
谢谢你的建议！

hadoop Hive db2 hiveql

来源：https://stackoverflow.com/questions/45724556/is-aggregating-outside-of-hive-a-better-choice

1条答案

按热度按时间

考虑到您正在使用cloudera，您有没有理由不在impala中执行聚合？将json数据转换为parquet（如果没有太多嵌套结构的话，我建议这样做）应该不会太贵。另一种方法是使用spark来转换数据（这也取决于集群的大小）。我想给你更具体的提示，但不知道你正在做什么聚合是复杂的

赞(0）回复(0）举报 2021-05-29

相关问题

微信公众号

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

Python pillow/PIL无法识别对象“imagedraw”的属性“textsize”
回答(3) 发布于 5个月前
python-3.x ImportError：无法从“typing_extensions”导入名称“deprecated”
回答(2) 发布于 5个月前
python-3.x 我正尝试使用密码学对字典进行加密
回答(1) 发布于 5个月前
在Python的IDLE中导入audiolazy的问题
回答(1) 发布于 5个月前
如何将Python程序中的数据添加到Markdown？
回答(2) 发布于 5个月前