我有一个Hive查询,如下所示:
select a.x as column from table1 a where a.y in (<long comma-separated list of parameters>)
union all
select b.x as column from table2 b where b.y in (<long comma-separated list of parameters>)
我已经准备好了 hive.exec.parallel
作为 true
这有助于我在union all之间实现两个查询之间的并行性。
但是,我的 IN
子句有许多逗号分隔的值,每个值在一个作业中取一次,然后取下一个值。这实际上是按顺序执行的。
是否有任何配置单元参数,如果启用该参数,可以帮助我为中的参数并行获取数据 IN
条款?
目前,我的解决方案是使用 =
多次而不是一次 IN
条款。
1条答案
按热度按时间vfh0ocws1#
为了获得更好的并行性,不需要在不同的查询中多次读取相同的数据。调整适当的Map器和减速器的并行度。
首先,使用矢量化启用ppd,使用cbo和tez:
tez上Map器的示例设置:
如果决定在mr而不是tez上运行,则Map器的示例设置:
--减速器设置示例:
播放这些设置。成功的标准是更多的Map器/还原器,你的Map和还原阶段运行得更快。
阅读本文以更好地了解如何调整tez:https://community.hortonworks.com/articles/14309/demystify-tez-tuning-step-by-step.html