强制hiveserver2运行mapreduce作业

2ul0zpep 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(362)

我正在使用hive-1.1.0。通过只读且不包含 predicate 的beeline向hiveserver2提交查询将导致hiveserver2尝试从hdfs本身读取数据，而不生成mapreduce作业：

SELECT * FROM my_table LIMIT 100;

对于非常大的数据集，这可能会导致hiveserver2占用大量内存，从而导致长时间的垃圾收集暂停。添加一个“假” predicate 将导致hiveserver2根据需要运行mapreduce作业；例如

SELECT * FROM my_table WHERE (my_id > 0 OR my_id <= 0) LIMIT 100;

所谓“假”，我指的是一个无关紧要的 predicate ；上面的示例 predicate 将始终为true。是否有强制hiveserver2始终运行mapreduce作业而不必添加虚假 predicate 的设置？
我不是说hiveserver2何时确定它可以在本地运行mapreduce作业；我完全丧失了这种能力：

> SET hive.exec.mode.local.auto;
+----------------------------------+--+
|               set                |
+----------------------------------+--+
| hive.exec.mode.local.auto=false  |
+----------------------------------+--+

但是没有 predicate 的查询仍然完全由hiveserver2读取，从而导致问题。
非常感谢您的指导。谢谢！

hadoop Hive mapreduce beeline hiveql

来源：https://stackoverflow.com/questions/56192471/force-hiveserver2-to-run-mapreduce-job

1条答案

按热度按时间

x0fgdtte1#

一些select查询可以转换为单个fetch任务，而无需map reduce。
此行为由控制 hive.fetch.task.conversion 配置参数。可能的值为： none , minimal 以及 more .
如果要禁用获取任务转换，请将其设置为“无”：

set hive.fetch.task.conversion=none;
``` `minimal` 将触发的仅获取任务
select*，按分区列筛选（where和having子句），仅限。 `more` 将触发的仅获取任务
选择任何类型的表达式，包括udf、filter、limit only（包括tablesample、virtual columns）
同时阅读 `hive.fetch.task.conversion.threshold` 参数和更多详细信息：配置单元配置属性

赞(0）回复(0）举报 2021-05-29

我来回答

强制hiveserver2运行mapreduce作业

1条答案

相关问题

热门标签

最新问答