rdd—为什么spark在一个简单的jdbc转换中生成许多MapPartitionsRDD？

yruzcnhs 于 2021-05-29 发布在 Spark

关注(0)|答案(0)|浏览(222)

我正在学习spark的数据行gae，我编写了一个简单的jdbc读取转换，如下所示，并使用rdd.todebugstring获取数据沿袭。

val paramDf = spark.read.jdbc(url, "(select * from tb limit 500) t", connectionProperties)
System.out.println(paramDf.rdd.toDebugString)

我发现，结果Dataframe的依赖项有5个RDD，如下所示

(1) MapPartitionsRDD[4] at rdd at SparkApp.scala:25 []
 |  SQLExecutionRDD[3] at rdd at SparkApp.scala:25 []
 |  MapPartitionsRDD[2] at rdd at SparkApp.scala:25 []
 |  MapPartitionsRDD[1] at rdd at SparkApp.scala:25 []
 |  JDBCRDD[0] at rdd at SparkApp.scala:25 []

为什么spark在一个简单的jdbc转换中生成这么多MapPartitionsRDD？

rdd apache-spark

来源：https://stackoverflow.com/questions/62330241/why-spark-generate-many-mappartitionsrdds-within-a-simple-jdbc-transformation