我是hadoop&hive的新手。您能否建议在cloudera5.2.1上运行apachehive是否有任何性能调优步骤。
为了提高配置单元查询的性能,有哪些优化参数
配置单元版本:-配置单元0.13.1-cdh5.2.1
配置单元查询:-
从staff.organization\u hierarchy a1中选择distinct a1.chain\u number chain\u number,a1.chain\u description chain\u description;
配置单元表以外部方式创建,选项为“存储为文本格式”,表属性如下:-
在改变低于Hive的设置后,我们已经看到10秒的改善
设置hive.exec.parallel=true;
您能建议除上述设置之外的任何其他设置来提高我使用的查询类型的配置单元查询性能吗。
2条答案
按热度按时间3df52oht1#
你可以用
group by
更换distinct
,因为只有一个reduce作业要做distinct
工作。试试这个
如果reduce作业数仍然很小,可以使用
mapred.reduct.tasks
配置ff29svar2#
不仅有一种方法,还有许多方法可以优化配置单元性能1)启用tez执行引擎。2) 使用orc文件格式3)使用矢量化4)基于成本的优化5)使用适当的hql命令等等。