我试图优化配置单元sql,方法是将数据固定在单个列上。我用以下语句创建了表
CREATE TABLE `source_bckt`(
`uk` string,
`data` string)
CLUSTERED BY(uk) SORTED BY(uk) INTO 10 BUCKETS
然后在执行后插入数据 "set hive.enforce.bucketing = true;"
当我运行以下命令时,选择 "select * from source_bckt where uk='1179724';"
即使数据应该在一个单独的文件中,这个文件可以通过下面的公式来识别 HASH('1179724')%10
mapreduce生成了对整个文件集的扫描。
你知道吗?
1条答案
按热度按时间cczfrluj1#
尚不支持此优化。
当前jira票证状态可用
https://issues.apache.org/jira/browse/hive-5831