into-hive表由于sparksql的性能问题花费了大量时间

8fq7wneg  于 2021-07-13  发布在  Hive
关注(0)|答案(0)|浏览(231)

向配置单元表中插入记录需要花费大量时间。
表定义:

CREATE TABLE dq_status(                          
   application_id string,                         
   application_name string,                       
   start_time string,                             
   end_time string,                               
   job_description string,                        
   status string)                                 
 ROW FORMAT SERDE                                   
   'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'  
 WITH SERDEPROPERTIES (                             
   'field.delim'=',',                               
   'serialization.format'=',')                      
 STORED AS INPUTFORMAT                              
   'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'  
 OUTPUTFORMAT                                       
   'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'

spark sql版本:2.4.0-cdh6.2.1
这是一张没有分区的table。表的问题是它有1400个小文件。但是插入几张唱片我不知道为什么要花10分钟。表现各不相同。有时插入时间为10秒,有时插入时间接近10分钟。
附截图:总查询时间-10分钟。但查询中的作业只花了1秒。我不知道剩下的几分钟里发生了什么。在这种情况下,我只是在配置单元表中插入一条记录。因为我们的大数据集群中没有任何其他数据库,所以我们使用的是HiveDB



请帮帮我!如果需要其他日志信息,请告诉我。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题