hive查询性能调优

sc4hvdpw  于 2021-05-30  发布在  Hadoop
关注(0)|答案(2)|浏览(270)

我是hadoop&hive的新手。您能否建议在cloudera5.2.1上运行apachehive是否有任何性能调优步骤。
为了提高配置单元查询的性能,有哪些优化参数
配置单元版本:-配置单元0.13.1-cdh5.2.1
配置单元查询:-
从staff.organization\u hierarchy a1中选择distinct a1.chain\u number chain\u number,a1.chain\u description chain\u description;
配置单元表以外部方式创建,选项为“存储为文本格式”,表属性如下:-
在改变低于Hive的设置后,我们已经看到10秒的改善
设置hive.exec.parallel=true;
您能建议除上述设置之外的任何其他设置来提高我使用的查询类型的配置单元查询性能吗。

3df52oht

3df52oht1#

你可以用 group by 更换 distinct ,因为只有一个reduce作业要做 distinct 工作。
试试这个

select chain_number, chain_description 
 from staff.organization_hierarchy
 group by chain_number, chain_description

如果reduce作业数仍然很小,可以使用 mapred.reduct.tasks 配置

ff29svar

ff29svar2#

不仅有一种方法,还有许多方法可以优化配置单元性能1)启用tez执行引擎。2) 使用orc文件格式3)使用矢量化4)基于成本的优化5)使用适当的hql命令等等。

相关问题