spark pairdd vs dataframe用于连接优化

b1zrtrql  于 2021-07-12  发布在  Spark
关注(0)|答案(1)|浏览(294)

在spark中执行连接时,使用Dataframe比pairdds有什么优点/缺点吗。换句话说,是否有任何连接优化只能用pairdds而不能用dataframes?

w6mmgewl

w6mmgewl1#

使用k,v方法,需要使用2个连接完成一个具有(3)rdd的三向连接。这是繁琐的,不能优化,只是为了加入rdd的。
df也可以作为一个查询来完成,而使用stats优化可以应用于使用stats或spark3的连接顺序。
rdd的-->非常痛苦的加入。

相关问题