rdd—为什么spark在一个简单的jdbc转换中生成许多MapPartitionsRDD?

yruzcnhs  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(222)

我正在学习spark的数据行gae,我编写了一个简单的jdbc读取转换,如下所示,并使用rdd.todebugstring获取数据沿袭。

val paramDf = spark.read.jdbc(url, "(select * from tb limit 500) t", connectionProperties)
System.out.println(paramDf.rdd.toDebugString)

我发现,结果Dataframe的依赖项有5个RDD,如下所示

(1) MapPartitionsRDD[4] at rdd at SparkApp.scala:25 []
 |  SQLExecutionRDD[3] at rdd at SparkApp.scala:25 []
 |  MapPartitionsRDD[2] at rdd at SparkApp.scala:25 []
 |  MapPartitionsRDD[1] at rdd at SparkApp.scala:25 []
 |  JDBCRDD[0] at rdd at SparkApp.scala:25 []

为什么spark在一个简单的jdbc转换中生成这么多MapPartitionsRDD?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题