在单键和多键分区中哪个性能更好?

djmepvbi  于 2021-06-27  发布在  Hive
关注(0)|答案(2)|浏览(310)

在雅典娜中进行查询时,哪种语法更好,为什么?或者这有什么关系?
按日期简单划分: s3: //example/2018-01-01 或者
每年/月/日的多个分区: s3://example/2018/01/01

5lhxktic

5lhxktic1#

只有当您知道要查找什么信息时,才能决定哪个分区更有效。当存储的数据太大而无法驻留在单个分区中时,将使用多个分区。使用多个列作为分区键会将数据分成块或桶。数据仍然分组,但分为更小的块。如果集群在向一个节点重复写入数据时遇到热点或拥塞,则这种方法是有效的,因为分区正在大量写入数据。

uoifb46i

uoifb46i2#

这取决于很多事情。。你的数据量每天,每月等太多的小文件不好雅典娜。另外,如何查询数据也很重要。请看下面的aws文章了解更多信息。
https://aws.amazon.com/blogs/big-data/top-10-performance-tuning-tips-for-amazon-athena/

相关问题