sparksqljoin在使用df.repartition与读入并使用分区Parquet地板时给出了不同的执行时间

vof42yt1 于 2021-09-08 发布在 Java

关注(0)|答案(0)|浏览(99)

我正在对一个公共id上的两个 Dataframe 进行广播哈希连接。
我注意到当我尝试时 DataFrame.repartition("id") 并将 Dataframe 传递到 JOIN 查询时，执行时间比使用 DataFrame.write.partitionBy("id") ，然后将Parquet作为 Dataframe 读入，然后将其传递到查询中。
为什么重新划分数据框与从分区Parquet地板读取数据框之间存在差异？
当我调用时，第一种情况和第二种情况都有相同数量的分区 df.rdd.getNumPartitions() ，并根据 id 专栏。
对于 DataFrame.repartition("id") 查询时间为三分钟，总共需要七个阶段的三个作业。
对于分割成Parquet地板，查询时间为一分钟，包含一个作业和一个阶段。
1个数据集为41 mil行，而另一个数据集为2 mil行。