优化配置单元查询请求来自两个分区的数据

7dl7o3gd 于 2021-06-27 发布在 Hive

关注(0)|答案(0)|浏览(370)

目前，我正在使用带有s3存储的hive。
我现在总共有1000000个分区。我面临的问题是：
如果我这样做了：
查询执行时间小于1秒。

select sum(metric) from foo where pt_partition_number = 'bar1'

select sum(metric) from foo where pt_partition_number = 'bar2'

但如果我这么做了

select sum(metric) from foo where pt_partition_number IN ('bar1','bar2')

查询大约需要30秒。我想hive正在做目录扫描以防第二次查询。
有没有优化查询的方法：我的请求模式总是访问两个分区的数据。

目前还没有任何答案，快来回答吧！

相关问题