spark sum和count的性能问题

sqougxex 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(1041)

我正在从配置单元表中提取数据并创建一个Dataframe。然后进行求和和和计数运算。数据大小约为3 tb。
例子

val DF1=hiveContext.sql("""SELECT col1,col2,col3,col4,count(col5) AS col5,
                           sum(col6) AS col6 from (
                                                  SELECT col1, col2, col3, col4, col5, 
                                                  sum(col6) AS col6 from <Dataframe from select fields from Table> 
                                                  group by col1, col2, col3, col4, col5
                                                  ) 
                           group by col1,col2,col3,col4
                        """)

DF1.count

这需要很多时间。你能为这种情况提出最好的方法吗？

hadoop DataFrame apache-spark apache-spark-sql spark-dataframe

来源：https://stackoverflow.com/questions/49524101/performance-issue-for-spark-sum-and-count