我正在学习spark的数据行gae,我编写了一个简单的jdbc读取转换,如下所示,并使用rdd.todebugstring获取数据沿袭。
val paramDf = spark.read.jdbc(url, "(select * from tb limit 500) t", connectionProperties)
System.out.println(paramDf.rdd.toDebugString)
我发现,结果Dataframe的依赖项有5个RDD,如下所示
(1) MapPartitionsRDD[4] at rdd at SparkApp.scala:25 []
| SQLExecutionRDD[3] at rdd at SparkApp.scala:25 []
| MapPartitionsRDD[2] at rdd at SparkApp.scala:25 []
| MapPartitionsRDD[1] at rdd at SparkApp.scala:25 []
| JDBCRDD[0] at rdd at SparkApp.scala:25 []
为什么spark在一个简单的jdbc转换中生成这么多MapPartitionsRDD?
暂无答案!
目前还没有任何答案,快来回答吧!