spark—对多列联接的性能影响

ncecgwcz  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(190)

目前,我们必须考虑在两个Dataframe之间连接许多列(可能是20-30甚至更多)的用例,以标识要持久化的新行。
一个Dataframe可以包含20万行,其他4万行可以继续增长。
我们在集群中运行这个进程,大约有40个工作节点。。
所以问题不在于spark能否做到这一点,而在于能否使整个集群瘫痪
这个场景的问题是:
集群性能如何根据要加入的列数而有所不同(重新排列等)?
跨所有连接列对Dataframe进行分区是否可行?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题