into-hive表由于sparksql的性能问题花费了大量时间

8fq7wneg 于 2021-07-13 发布在 Hive

关注(0)|答案(0)|浏览(231)

向配置单元表中插入记录需要花费大量时间。
表定义：

CREATE TABLE dq_status(                          
   application_id string,                         
   application_name string,                       
   start_time string,                             
   end_time string,                               
   job_description string,                        
   status string)                                 
 ROW FORMAT SERDE                                   
   'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'  
 WITH SERDEPROPERTIES (                             
   'field.delim'=',',                               
   'serialization.format'=',')                      
 STORED AS INPUTFORMAT                              
   'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'  
 OUTPUTFORMAT                                       
   'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'

spark sql版本：2.4.0-cdh6.2.1
这是一张没有分区的table。表的问题是它有1400个小文件。但是插入几张唱片我不知道为什么要花10分钟。表现各不相同。有时插入时间为10秒，有时插入时间接近10分钟。
附截图：总查询时间-10分钟。但查询中的作业只花了1秒。我不知道剩下的几分钟里发生了什么。在这种情况下，我只是在配置单元表中插入一条记录。因为我们的大数据集群中没有任何其他数据库，所以我们使用的是HiveDB

请帮帮我！如果需要其他日志信息，请告诉我。