hiveinsert查询只运行了17个多小时

57hvy0tb 于 2021-06-26 发布在 Hive

关注(0)|答案(0)|浏览(221)

背景：
emr 5.4 2节点集群（主节点+从节点）。
在安装过程中提供了外部配置单元元存储详细信息。
Hive仓库已设置在s3上。
我使用spark2.1来处理文件并创建一个staging表。
一旦暂存表准备就绪，我将尝试使用配置单元将该数据加载到配置单元表中。
问题：insert语句通常在其他集群（aws之外）上运行7-10分钟，但在emr集群上却要花很长时间才能运行。我能够查询spark从hive创建的staging表。以下是我使用的语句：

CREATE TABLE Test1(
column1 string ,
column2 string,
column3 double)
PARTITIONED BY (Date_1 date)

INSERT OVERWRITE TABLE Test1 PARTITION(date_1)
SELECT
column1,
column2,
column3,
date_1
FROM Test1_stag

任何帮助都将不胜感激。
谢谢

Hive amazon-emr hiveql metastore

来源：https://stackoverflow.com/questions/42836588/hive-insert-query-on-emr-just-keeps-running-for-more-then-17-hours